《百面机器学习》读书笔记-第一章特征工程

最新推荐文章于 2024-01-02 17:19:45 发布

weixin_32614651

最新推荐文章于 2024-01-02 17:19:45 发布

阅读量1.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32614651/article/details/82256015

版权

为什么需要对数值类型的特征做归一化？

可以将所有的特征都统一到一个大致相同的数值区间内，通过梯度下降发求解的模型通常是需要归一化的。常用的方法有线性归一化和零均值归一化。

怎样处理类别型特征？

序号编码，独热编码，二进制编码

什么是组合特征？如何处理高维组合特征？

把一阶离散特征两两组合

有哪些文本表示模型？各有什么优缺点？

词袋模型：每篇文章表示成一个长向量，每一维代表一个单词，该维对应的权重反映了这个词在原文中的重要程度，常用TF-IDF(t,d)来计算权重。

词嵌入式一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间的一个稠密向量。

Word2Vec是如何工作的？它与LDA有什么区别与联系？

word2vec有两种网络结构，分别是CBOW和skip-gram。

CBOW的目标是根据上下文出现的词语来预测当前词的生成概率，而Skip-gram是根据当前词来预测上下文中各词的生成概率

LDA是利用文档中单词的共现关系来对单词主题聚类，也可以理解为对“文档-单词”矩阵进行分解，得到“文档-主题”和“主题-单词”两个概率分布。

而Word2Vec是对“上下文-单词”矩阵进行学习

主题模型和词嵌入两类方法最大的不同在于模型本身，主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干条件概率连乘的形式；

而词嵌入模型一般表达为神经网络的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。

训练神经网络的权重：从输入层到隐含层需要一个维度为 $N\times K$ 的权重矩阵，从隐含层到输出层又需要一个 $K\times N$ 的权重矩阵

在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？

过拟合问题，即模型在训练样本上的效果可能不错，但在测试集上的泛化效果不佳。处理方法分为两类：一是基于模型的方法，主要是采用降低过拟合风险的措施，包括简化模型，添加约束项以缩小假设空间，集成学习，dropout超参数等

二是基于数据的方法，主要通过数据扩充。可以对图像进行的变换有：

1.一定程度内的随机旋转，平移，缩放，裁剪，填充，左右翻转等，这些变化对应着同一个目标在不同角度的观察结果

2.对图像中的像素添加噪声扰动，比如椒盐噪声，高斯白噪声

3.颜色变换

4.改变图像的亮度，清晰度，对比度，锐度等

weixin_32614651

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《百面机器学习》读书笔记-第一章特征工程

为什么需要对数值类型的特征做归一化？可以将所有的特征都统一到一个大致相同的数值区间内，通过梯度下降发求解的模型通常是需要归一化的。常用的方法有线性归一化和零均值归一化。怎样处理类别型特征？序号编码，独热编码，二进制编码什么是组合特征？如何处理高维组合特征？把一阶离散特征两两组合有哪些文本表示模型？各有什么优缺点？词袋模型：每篇文章表示成一个长向量，每一维代表一个单...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。