数值型数据:标准缩放
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import jieba
from sklearn.preprocessing import MinMaxScaler,StandardScaler
def mm():
"""
归一化处理
把数据进行缩放
特征同等重要的时候,进行归一化。。
目的:使得某一个特征对最终结果不会造成更大的影响
缺点:对异常点,最大点,最小点不好控制
"""
mm = MinMaxScaler(feature_range=(2,3))
# fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式
data = mm.fit_transform([[90,2,10,40],[60,6,15,45],[23,44,55,1]])
print(data)
def stand():
'''
标准化缩放
处理之后每列来说所有数据都聚集在均值0附近,标准差差为1
'''
std = StandardScaler()
data = std.fit_transform([[1,-1,3],[2,5,6],[3,4,6]])
print(data)
# 标准化总结,在已经有的样本足够多的情况下比较稳点,适合现在嘈杂大数据场景
if __name__ == '__main__':
stand()
'''
'''
缺失值 sklearn.preprocessing.Imputer
如何处理缺失值
1.要么删除
2.要么增加
可以通过缺失值,每行每列的平均值、中位值来填充
Imputer(missing_values=‘NaN’,strategy=‘mean’,axis=0)
完成缺失值插补
missing_values=‘NaN’-----找到要写值的地方,NaN空置
strategy=‘mean—用mean值填补
axis=0—列值
replace(’?’,np.nan)------缺失值要换,只能换np.nan的值