可用数据集
Kaggle网址:https://www.kaggle.com/datasets
1、大数据竞赛平台 2、80万科学家 3、真实数据 4、数据量巨大
UCI数据集网址: http://archive.ics.uci.edu/ml/
1、收录了360个数据集 2、覆盖科学、生活、经济等领域 3、数据量几十万
scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets
1、数据量较小 2、方便学习
python 的jieba模块安装下载
pip install jieba -i https://pypi.douban.com/simple/
亲测速度非常快
![](https://img-blog.csdnimg.cn/img_convert/e4eec36144423533dfbf4bc3546e705d.png)
sklearn库中不存在Imputer类
from sklearn.impute import SimpleImputer
特征抽取
特征预处理
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
sklearn特征处理API sklearn. preprocessing
归一化
适合传统精确小数据场景
1、实例化MinMaxScalar
2、通过fit_transform转换
![](https://img-blog.csdnimg.cn/img_convert/d67b51d249fccf3e7918e9dbc73620df.png)
标准化
sklearn特征化API: scikit-learn.preprocessing.StandardScaler
1、实例化StandardScaler
2、通过fit_transform转换
![](https://img-blog.csdnimg.cn/img_convert/a305db615d2fa83c1fe222992129e60f.png)
缺失值
sklearn缺失值API: sklearn.preprocessing.Imputer
删除 | 如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列 |
插补 | 可以通过缺失值每行或者每列的平均值、中位数来填充 |
1、初始化Imputer,指定”缺失值”,指定填补策略,指定行或列
2、调用fit_transform
注意,要替换成 np.npn 或者用replac["?",np.nan】
Imputer(missing_values='NaN', strategy='mean', axis=0) #0是列完成缺失值插补