文本特征提取
提取方式:
- 以句子的方式
- 以字母的方式
- 以单词的方式,统计单词出现的个数
我们介绍单词的方式,而不是句子或者字母的方式。因为句子和字母比较受限。
示例一:英文句子
import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t = ['life is short, i like python', 'life is too long, i dislike python']
t_new = transfor.fit_transform(t) # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()
[[0 1 1 1 0 1 1 0] [1 1 1 0 1 1 0 1]]['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
注意,sklearn的文本特征提取会把单个字母和符号进行忽略
示例二:中文句子特征提取
那么,这里问题来了,如果要转换成中文,怎么办?
- 我们可以看到,英文句子的单词之间有一个特殊的地方在于,存在空格!!!
- 我们可以效仿,中文句子的买一个词之间,产生空格!!这里我们可以应用jieba库来实现
import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t = ['我 爱 中国 母亲', '大河 向 东流']
t_new = transfor.fit_transform(t) # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()
[[0 1 0 1] [1 0 1 0]]['东流', '中国', '大河', '母亲']
示例三:中文句子特征提取(jieba库的拓展)
import jieba
text = '简要介绍了相关的人工智能技术,如专家系统,人工神经网络,模糊理论,遗传算法及网络等的基本概念,并在此基础上对文献中提出的相应的输电网络故障诊断方法进行述评,分析它们在输电网嶷故障诊断中应用的特点以及存在的主要问题'
text_list = text.split(',')
data_list = []
for sentence in text_list:
data_list.append(' '.join(jieba.cut(sentence)))
import sklearn.feature_extraction.text as text
transfor = text.CountVectorizer()
t_new = transfor.fit_transform(data_list) # 特征转换
# 特征矩阵
# sparse对象存在方法.toarray()方法,可以直接转化成one-hot矩阵
print(t_new.toarray())
# 特征名称:
transfor.get_feature_names()
[[0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0] [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0] [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0] [0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 0 0 1 0 1 1 0 1 1 0 0] [0 1 0 0 0 1 1 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1]]['专家系统', '主要', '人工智能', '人工神经网络', '介绍', '以及', '分析', '基本概念', '存在', '它们', '应用', '技术', '提出', '故障诊断', '文献', '方法', '模糊', '此基础', '特点', '理论', '相关', '相应', '简要', '网络', '输电', '输电网', '进行', '述评', '遗传算法', '问题']
学习地址: