机器学习算法基础-Day1

Wuli小团

已于 2024-04-05 23:54:31 修改

阅读量104

点赞数

分类专栏：机器学习基础文章标签： sklearn python

于 2023-01-05 23:51:28 首次发布

本文链接：https://blog.csdn.net/weixin_38551226/article/details/128555334

版权

机器学习基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

可用数据集

Kaggle网址：https://www.kaggle.com/datasets

1、大数据竞赛平台 2、80万科学家 3、真实数据 4、数据量巨大

UCI数据集网址： http://archive.ics.uci.edu/ml/

1、收录了360个数据集 2、覆盖科学、生活、经济等领域 3、数据量几十万

scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

1、数据量较小 2、方便学习

python 的jieba模块安装下载

pip install jieba -i https://pypi.douban.com/simple/

亲测速度非常快

sklearn库中不存在Imputer类


from sklearn.impute import SimpleImputer

特征抽取

特征预处理

通过特定的统计方法（数学方法）将数据转换成算法要求的数据

sklearn特征处理API sklearn. preprocessing

归一化

适合传统精确小数据场景

1、实例化MinMaxScalar

2、通过fit_transform转换

标准化

sklearn特征化API: scikit-learn.preprocessing.StandardScaler

1、实例化StandardScaler

2、通过fit_transform转换

缺失值

sklearn缺失值API: sklearn.preprocessing.Imputer

删除	如果每列或者行数据缺失值达到一定的比例，建议放弃整行或者整列
插补	可以通过缺失值每行或者每列的平均值、中位数来填充

1、初始化Imputer,指定”缺失值”，指定填补策略，指定行或列

2、调用fit_transform

注意，要替换成 np.npn 或者用replac["?",np.nan】

Imputer(missing_values='NaN', strategy='mean', axis=0) #0是列完成缺失值插补

Wuli小团

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法基础-Day1

机器学习基础-Day1
复制链接

扫一扫

专栏目录

机器学习算法基础-Day1

特征抽取

特征预处理

归一化

标准化

缺失值

“相关推荐”对你有帮助么？