目录
先用jieba将字符串切开,然后将其生成列表,再将空格加入列表中形成新字符串
字符特征化
1.英文的特征化Dictvectorise
特征词计数
输入字符串列表,通过countvectorizer获取了各个特征词,并统计了他们的数量矩阵,在第一句中python出现次数为1,第二句中也为1
中文识别,特征化jieba分词后处理
先用jieba将字符串切开,然后将其生成列表,再将空格加入列表中形成新字符串
特征预处理——对数据进行预处理
SKLEARN.PREPROCESSING 预处理api
1.归一化
将所有特征值转化到同一标准下,因此需要归一化,使一个特征对最终结果不会造成较大影响
缺点:最大值最小值受异常点影响较大
2.标准化
受异常点的影响较小,适用于有一定数据量基础
3.缺失值处理
一般采用插补
补充缺失值实例,以平均值替换,0是以列为标准
pandas中数据缺失的处理
数据降维——减少特征数量
过滤式,通过方差大小来过滤,方差越小代表离散程度差
删除了相差不大的列
主成分分析-当特征达到上百个时,考虑减少特征
n_components=0-1的小数代表保留信息部分为百分之多少,如0.95为百分之95保留
输入整数则代表保留到多少个特征
.
思维导图