四个板块:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import jieba#对中文进行分词处理,解决countvectorizer无法进行中文特征抽取的问题
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler#将数值型数据进行归一化处理
from sklearn.preprocessing import StandardScaler#将数据进行标准化处理
from sklearn.impute import SimpleImputer#处理数据的缺失值
DictVectorizer :对字典或者包含字典的迭代器进行数据的特征值处理,处理成sparse矩阵,当其其中的参数sparse=False时返回矩阵对应的数组
CountVectorizer :对英文形式下的字符串进行词频统计,输出sparse矩阵,但是在该函数中没有sparse参数,需要使用 *.toarray()方法,将矩阵转换为数组。
找出对应文章中的关键词,好进行分类,但是需注意,单个字母不进行统计(单个不成词的文字也不进行统计)。
TfidfVectorizer :对字符串中出现的词语进行概率的统计,输出概率矩阵。但是在该函数中没有sparse参数,需要使用 *.toarray()方法,将矩阵转换为数组。
作用:更加直观的可以看出该篇文章的关键词。
jieba:为了解决CountVectorizer无法对中文词频进行统计,可利用jieba.cut(X),对中文进行分词处理,处理成和英文文章一样用空格将单词分开。
MinMaxScalar:将数值型数据进行归一化处理,使得不同数据不会因为大小差距太大在最后计算影响度时出现偏差,将数值型数据统一处理为区间为【0,1】的数组,适合于不同特征值重要性相同的情况下使用。
StandardScaler:将数值型数据进行标准化处理,使得不同的特征数据转换为均值为0,标准差为1的数据,在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。
SimpleImputer:sklearn中处理缺失值的函数,数组中的缺失值需为np.nan类型,如原数据中不时需使用replace进行替换,另外一般处理缺失值常用pandas中的dropna进行删除,fillna进行平均值或中位数的填补,SimpleImputer不经常使用,做了解即可
对应的语法: