机器学习笔记

tf-idf
tf: term frequency 词的频率
idf: inverse document frequency 逆文档频率 log(总文档数量/该词出现的文档数量)
tf*idf = 重要性程度

特征处理是什么: 通过特定的统计方法(数学方法)将数据转换成算法要求的数据
数值型数据: 标准缩放: 1. 归一化 2. 标准化 3. 缺失值 并非所有算法都需要对数据处理
类别型数据: one-hot编码
时间类型: 时间的切分
归一化: 通过对原始数据进行变换把数据映射到(默认[0,1])之间,使得一个特征对最终结果不会造成更大的影响
计算公式为 其中mx mi 为指定范围的最大值,最小值,一般默认为0-1
数据中异常点较多会有什么影响: 异常点对最大值最小值影响太大,影响最终结果
归一化总结: 在特定场景下最大值最小值是变化的,另外最大值与最小值非常容易受异常点的影响,所以这种方法的鲁棒性较差,只适合传统精确小数据场景(很少).
鲁棒性就是形容稳定性.
标准化:
特点: 通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内.
分母为标准差,var为方差
方差考量了数据的稳定性
对于标准化而言: 如果出现异常点,由于具有一定的数据量,少量的异常点对于平均值而言影响并不大,从而方差改变较小.
标准化总结: 在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景.
如何处理数据中的缺失值:
1.删除:如果每列或者行数据缺失值达到一定比例,建议放弃整行或者整列
2.插补:可以通过缺失值每行或者每列的平均值,中位数来填补
pandas中可以通过dropna或fillna填补
sklearn中处理nan要求是np.nan形式(float类型)

数据降维:这里的维度只得是特征的数量.
方式:
1.特征选择
2.主成分分析
特征选择的原因:
冗余: 部分特征的相关度高,容易消耗计算性能
噪声: 部分特征对预测结果有影响
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中一部分特征.
主要方法:
1.Filter(过滤式): VarianceThreshold
2.Embedded(嵌入式): 正则化,决策树
3.Wrapper(包裹式)
其他特征选择方法: 神经网络

sklearn主成分分析API
Sklearn.decomposition

PCA(主成分分析): 本质上是一种分析,简化数据集的技术.
目的: 是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息.
作用: 可以削减回归分析或者聚类分析中特征的数量
当特征数量达到上百的时候,就要考虑数据的简化问题(减少特征),一个张图片往往有上万个特征.数据会发生改变,而且特征数量也会减少.
高维度数据的问题: 特征之间可能是相关的.
例子:现在有有点 (-1,-2) (-1,0) (0,0) (2,1) (0,1) 要求:将这个二维数据简化为一维.
降维到一条直线上,投影到X轴上,从5个点变成了3个点.损失了两个点,数据损失了.
降维到一条直线上,投影到y轴上,从5个点变成了3个点.损失了两个点,数据损失了.
用PCA方法可能投影到一条斜线y=x上,仍有5个点,将数据损失降低.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值