分类学习基础

机器学习的数据:文件csv

数据集的结构:

kaggle 大数据竞赛平台、真实数据、数据量巨大

uci 专业数据集,覆盖了生活的方方面面

scikit-learn 数据量较小,方便学习。

结构: 特征值+目标值。

房子面积、位置、楼层、朝向为特征值

  房子面积房子位置房子楼层房子朝向目标值
样本1数据18093080
样本2数据2100951120
样本3数据3801030100

有些数据集可以没有目标值

特征工程:对数据集中特征的处理,将文本中的特征转化为数字

使用工具sklearn(不仅限于这个)

下图是机器学习的整个流程。

安装sklearn(需要numpy,pandas等库)

在Python3的虚拟环境中,mkvirtualenv -p /.../ ml3

ubuntu的虚拟环境中运行:pip install Scikit-learn

检查是否可以使用:import sklearn

tf: term frequency 词频率 出现的次数

idf inverse document frequency 逆文档频率 log(总文档数量、本次出现文档的数量)

tf*idf 称为 重要性 

可以将词语按照重要性进行从大到小排序,这样可以得出一篇文章中关键词汇从而进行分类处理。

from sklearn.preprocessing import MinMaxScaler
def mm():
    '''归一化处理'''
    mm = MinMaxScaler()
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)
if __name__ == "__main__":
    mm()

当异常值比较多的时候,直接使用归一化会影响最大最小值,从而影响最后结果的准确性。由于标准化是大批数据进行,所以一般在归一化前进行标准化。

如何处理缺失值?

1、删除 如果缺失值比较多,删除的话会大大减少数据量(一般不用)

2、填补 平均数、中位数进行填补

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九久呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值