ML读书笔记（特征工程）

最新推荐文章于 2024-08-27 22:00:00 发布

smartcat2010

最新推荐文章于 2024-08-27 22:00:00 发布

阅读量145

点赞数

分类专栏： ML读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartcat2010/article/details/100724873

版权

ML读书笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

目的：去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。

A.

数值类特征归一化：1. Min-Max Scaling: 线性归一化至0~1；2. Z-Score Normalization:(x-均值)/方差, 归一化至(-1,1)

为什么需要归一化：

1. 不归一化则损失函数的等高线是椭圆，梯度下降求解时，会震荡，导致收敛速度慢；（公式求导解释）；（线性回归，逻辑回归，SVM，神经网络等梯度下降求解的，需要归一化；决策树这样的不需要梯度下降的，不需要归一化）

2. 涉及距离计算时，归一化能提高模型精度；

B.

类别类特征，要编码：

1. 序号编码：有大小关系的特征，例如成绩，可编码为<高，中，低>三挡；

2. One-hot编码：应用最广泛的编码方式；多维稀疏向量，只有1个是1其余全是0；可用稀疏向量表示来降低空间开销；

可使用特征选择来降低维度。高维特征会带来如下问题：a. K近邻算法中，高维空间下的两点间距离难以有效衡量；b. LR模型中，高维特征带来参数量大增，易造成过拟合；c. 通常只有部分维度对分类、预测有帮助；

3. 二进制编码（什么时候用？）

4. Word-embedding

C.

二阶组合特征：特征A有a种取值，特征B有b种取值，组合特征AB有a*b种取值，用a*b个0-1变量表示；

用户ID*物品ID：维度太高了，参数太多；所以改用FM(其实就是矩阵分解），参数个数降至：用户数*K+物品数*K;

D.

自动寻找好用的特征组合：可以用GBDT（Facebook2014的GBDT+LR）

GBDT可以学到更高阶的特征组合；FM只能学到2阶特征组合；

深度学习也是自动特征工程（前面的层抽的是低级特征，后面的层抽的是高级特征）

E. 文本的特征：

1. TF-IDF；2.N-gram词组加入TF-IDF向量；3.LDA；4.Word-embedding(每个维度可以视为主题）；5.神经网络（越后面的层越抽取高级语义特征）

F. Word2Vec:

最原始的Word2Vec是神经网络+softmax分类；因为softmax函数的分母涉及到所有单词，速度太慢；所以有了Hierarchical Softmax和Negative Sampling;

LDA VS Word2Vec:

LDA用的是"文章-单词"文章内的共现；Word2Vec用的是“上下文-单词”上下文内的共现；

LDA是基于概率图模型的生成式模型，其似然函数写成若干条件概率连成的形式，其中包括要推测的隐含变量（主题）；

词嵌入模型一般是神经网络形式，似然函数定义在网络的输出之上，通过学习网络的权重以得到单词的稠密向量表示；

G. 图像训练数据扩充

有效信息来自于：1. 训练数据中蕴含的信息；2. 人们往训练数据或者往模型里加入的先验信息；

1. 随机旋转、平移、缩放、裁剪、填充、左右翻转；

2. 对像素添加噪声扰动，如椒盐噪声、高斯白噪声；

3. 颜色变换；

4. 改变图像的亮度、清晰度、对比度、锐度等；

5. 先对图像进行特征提取，然后应用通用的数据过采样技术，例如SMOTE(同一类别的2个近邻样本之间用随机线性差值生成假样本）

6. GAN网络生成；

7. 使用迁移学习，利用里一个类似任务上训练好的模型前几层；从而使得本任务小训练集也能得到不错的模型；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

smartcat2010 CSDN认证博客专家 CSDN认证企业博客

码龄13年

206: 原创

2万+: 周排名

7441: 总排名

38万+: 访问

: 等级

5056: 积分

234: 粉丝

298: 获赞

39: 评论

697: 收藏

私信

关注

热门文章

分类专栏

最新评论

NCCL的Double Binary Tree实现原理
yangyangv5: 博主请教一些问题，ring allreduce在设备数量足够大的时候可以近似看所 2S/B+SC,这部分性能与设备无关了，和tree相比tree在性能上的优势是什么呢？RingAllReduce，每次每个节点等量的发送和接收，所以接收到的加和完后，没有带宽再同时发送了这段话不是很理解
Tensorflow论文解读
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Mesos+Docker+Tensorflow集群解决方案
CSDN-Ada助手: 有人说无监督学习才是AI的未来，否则会有多少人工就有多少智能，元芳你怎么看呢？
B树和Clustered/Non-Clustered index
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)增加除了各种控件外，文章正文的字数。
DeepSpeed MoE
柒免: 您好，请问您有成功运行实际的代码吗？多机多卡推理moe模型这种？想请教一下

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。