机器学习算法基础-Day1

可用数据集

Kaggle网址:https://www.kaggle.com/datasets

1、大数据竞赛平台              2、80万科学家              3、真实数据              4、数据量巨大

UCI数据集网址: http://archive.ics.uci.edu/ml/

1、收录了360个数据集              2、覆盖科学、生活、经济等领域                        3、数据量几十万

scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets

1、数据量较小              2、方便学习

python 的jieba模块安装下载

pip install jieba -i https://pypi.douban.com/simple/

亲测速度非常快

sklearn库中不存在Imputer类


from sklearn.impute import SimpleImputer

特征抽取

特征预处理

通过特定的统计方法(数学方法)将数据转换成算法要求的数据

sklearn特征处理API sklearn. preprocessing

归一化

适合传统精确小数据场景

1、实例化MinMaxScalar

2、通过fit_transform转换

标准化

sklearn特征化API: scikit-learn.preprocessing.StandardScaler

1、实例化StandardScaler

2、通过fit_transform转换

缺失值

sklearn缺失值API: sklearn.preprocessing.Imputer

删除

如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列

插补

可以通过缺失值每行或者每列的平均值、中位数来填充

1、初始化Imputer,指定”缺失值”,指定填补策略,指定行或列

2、调用fit_transform

注意,要替换成 np.npn 或者用replac["?",np.nan】

Imputer(missing_values='NaN', strategy='mean', axis=0) #0是列完成缺失值插补

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值