入门sklearn之文本特征提取

文本特征提取

 提取方式:

  • 以句子的方式
  • 以字母的方式
  • 以单词的方式,统计单词出现的个数

我们介绍单词的方式,而不是句子或者字母的方式。因为句子和字母比较受限。

示例一:英文句子

import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t = ['life is short, i like python', 'life is too long, i dislike python']
t_new = transfor.fit_transform(t)  # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()

[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

注意,sklearn的文本特征提取会把单个字母和符号进行忽略 

示例二:中文句子特征提取

那么,这里问题来了,如果要转换成中文,怎么办?

  1. 我们可以看到,英文句子的单词之间有一个特殊的地方在于,存在空格!!!
  2. 我们可以效仿,中文句子的买一个词之间,产生空格!!这里我们可以应用jieba库来实现
import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t = ['我 爱 中国 母亲', '大河 向 东流']
t_new = transfor.fit_transform(t)  # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()

[[0 1 0 1]
 [1 0 1 0]]
['东流', '中国', '大河', '母亲']

示例三:中文句子特征提取(jieba库的拓展)

import jieba

text = '简要介绍了相关的人工智能技术,如专家系统,人工神经网络,模糊理论,遗传算法及网络等的基本概念,并在此基础上对文献中提出的相应的输电网络故障诊断方法进行述评,分析它们在输电网嶷故障诊断中应用的特点以及存在的主要问题'
text_list = text.split(',')
data_list = []
for sentence in text_list:
    data_list.append(' '.join(jieba.cut(sentence)))
    
    
import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t_new = transfor.fit_transform(data_list)  # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()
[[0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 0 0 1 0 1 1 0 1 1 0 0]
 [0 1 0 0 0 1 1 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1]]
['专家系统',
 '主要',
 '人工智能',
 '人工神经网络',
 '介绍',
 '以及',
 '分析',
 '基本概念',
 '存在',
 '它们',
 '应用',
 '技术',
 '提出',
 '故障诊断',
 '文献',
 '方法',
 '模糊',
 '此基础',
 '特点',
 '理论',
 '相关',
 '相应',
 '简要',
 '网络',
 '输电',
 '输电网',
 '进行',
 '述评',
 '遗传算法',
 '问题']

学习地址: 

 ​​​​​​黑马程序员3天快速入门python机器学习_哔哩哔哩_bilibili

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值