文本+数据的特征值处理 缺失值处理

本文介绍了在文本数据分析中如何处理特征值,包括使用DictVectorizer和CountVectorizer进行词频统计,TfidfVectorizer进行概率统计,以及jieba对中文文本的分词处理。同时,文章讨论了数值型数据的预处理,如MinMaxScaler的归一化和StandardScaler的标准化,以及如何使用SimpleImputer处理缺失值。这些方法对于数据的标准化和特征提取至关重要,确保后续分析的准确性和稳定性。
摘要由CSDN通过智能技术生成

四个板块:

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
import jieba#对中文进行分词处理,解决countvectorizer无法进行中文特征抽取的问题
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler#将数值型数据进行归一化处理
from sklearn.preprocessing import StandardScaler#将数据进行标准化处理
from sklearn.impute import SimpleImputer#处理数据的缺失值

DictVectorizer :对字典或者包含字典的迭代器进行数据的特征值处理,处理成sparse矩阵,当其其中的参数sparse=False时返回矩阵对应的数组

CountVectorizer :对英文形式下的字符串进行词频统计,输出sparse矩阵,但是在该函数中没有sparse参数,需要使用 *.toarray()方法,将矩阵转换为数组。
找出对应文章中的关键词,好进行分类,但是需注意,单个字母不进行统计(单个不成词的文字也不进行统计)。

TfidfVectorizer :对字符串中出现的词语进行概率的统计,输出概率矩阵。但是在该函数中没有sparse参数,需要使用 *.toarray()方法,将矩阵转换为数组。
作用:更加直观的可以看出该篇文章的关键词。

jieba:为了解决CountVectorizer无法对中文词频进行统计,可利用jieba.cut(X),对中文进行分词处理,处理成和英文文章一样用空格将单词分开。

MinMaxScalar:将数值型数据进行归一化处理,使得不同数据不会因为大小差距太大在最后计算影响度时出现偏差,将数值型数据统一处理为区间为【0,1】的数组,适合于不同特征值重要性相同的情况下使用。

StandardScaler:将数值型数据进行标准化处理,使得不同的特征数据转换为均值为0,标准差为1的数据,在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

SimpleImputer:sklearn中处理缺失值的函数,数组中的缺失值需为np.nan类型,如原数据中不时需使用replace进行替换,另外一般处理缺失值常用pandas中的dropna进行删除,fillna进行平均值或中位数的填补,SimpleImputer不经常使用,做了解即可

对应的语法:

DictVectorizer . fit_transform (X)      
X: 字典或者包含 字典的迭代器
返回值:返回 sparse 矩阵
DictVectorizer . inverse_transform (X)
X:array 数组或者 sparse 矩阵
返回值 : 转换之前数据格式
DictVectorizer.get_feature_names_out()
返回类别名称
DictVectorizer.transform (X)
按照原先的标准转换

CountVectorizer . fit_transform ( X,y )      
X: 文本或者包含 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值