第一章特征工程

最新推荐文章于 2024-07-19 22:46:50 发布

「已注销」

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量65

点赞数

文章标签：人工智能大数据神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42817027/article/details/115408425

版权

章节主要内容：

1 特征归一化
2 类别型特征
3 高维组合特征的处理
4 组合特征
5 文本表示模型
6 word2vec
7 图像数据不足时的处理方法

章节问题：
数据和特征是机器学习的基础，模型与算法则是处理工具。二者缺一不可。
特征工程：将原始数据进行处理，将其提炼为特征。旨在除去数据中的杂质与冗余，设计更高效的特征。

为什么对数值类型的特征做归一化？
将特征都统一到大致相同的范围，便于处理，常见方式：线性函数归一化，零均值归一化。不过决策树不适合归一化，因为决策树的决策是基于特征的信息增熵，与特征是否归一化无关。而其他模型如线性回归，支持向量机，神经网络，归一化后更容易操作。

如何处理类别型特征？
类别型特征是指如男女，血型等只在有限选项取值的特征。其原始输入通常是字符串形式。
一般采用：序号编码，独热编码（稀疏二进制数值），二进制编码处理

什么是组合特征？如何处理高维组合特征？
组合特征是将离散的特征两两组合起来够成高阶特征。但是高阶特征会导致参数规模巨大，此时可以采用矩阵分解进行降维。降低参数计算量

怎样有效地找到组合特征？
使用决策树，每一个从根节点到叶节点的路径都是特征组合的方式。

有哪些文本表示模型？各有什么优缺点？
词袋模型：最基础的模型，将整段文章看作词语组合，切割词语。
TF-IDF模型：TF-IDF公式可以计算权重
N-gram模型：将切割单词变成切割词组
主题模型：从文本库中发现代表性的主题，计算每篇文章的主题分布。
词嵌入模型：核心是将词映射为低维空间上的稠密向量，低维空间上的每一维可以看成是一个隐含的主题。通常用卷积神经网络或者循环神经网络进行进一步的特征加工处理

如何缓解图像分类任务中训练数据不足带来的问题？
一个模型提供的信息一半来自两方面：训练数据中的蕴含信息；模型形成过程中人们提供的先验信息。
数据不足容易导致过拟合，可以采取两类方法：第一类基于模型。主要包括简化模型，添加约束项，集成学习
第二类基于数据，采用信息扩充，可以对原始数据进行适当变换得到新数据。
（迁移学习，生成对抗网络生成新样本，图像处理，上采样技术，数据扩充）

word2vec是如何工作的？它和隐迪利克雷模型有什么区别与联系？
word2vec是对上下文-单词矩阵进行学习，而LDA则是对文档-单词进行分解得到文档-主题，主题-单词矩阵

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一章特征工程

章节主要内容：1 特征归一化2 类别型特征3 高维组合特征的处理4 组合特征5 文本表示模型6 word2vec7 图像数据不足时的处理方法章节问题：
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。