1 特征工程

最新推荐文章于 2022-08-30 17:25:20 发布

ukakasu

最新推荐文章于 2022-08-30 17:25:20 发布

阅读量189

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ukakasu/article/details/84635216

版权

机器学习专栏收录该内容

33 篇文章 0 订阅

订阅专栏

1 特征工程

01 特征归一化、标准化

方法

归一化–线性函数归一化（Min-Max Scaling）
标准化–零均值归一化（Z-Score Normalization）

原因

参数更新速度变得更为一致，收敛速度更快。

特点

标准化是更常用的手段，归一化的应用场景是有限的。
标准化更好保持了样本间距。
标准化更符合统计学假设。
必须要特征在0到1之间，此时就只能用归一化。
决策树模型不适用，信息增益比跟特征是否经过归一化是无关的。

02 类别型特征

序号编码
- 处理类别间具有大小关系的数据。例如成绩
独热编码
- 处理类别间不具有大小关系的特征。例如血型
二进制编码

03/04 组合特征

什么是组合特征
- 把一阶离散特征两两组合，构成高阶组合特征。
如何处理高维组合特征
- 矩阵分解
如何选择组合特征
- 决策树

05 文本表示模型

词袋模型
- 将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。
- TF-IDF
  - 词频-逆文本频率
- N-gram模型
  - 将连续出现的n个词（n≤N）组成的词组（N-gram）也作为一个单独的特征放到向量表示中去，构成N-gram模型。
主题模型
词嵌入与深度学习模型
- 词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间（通常K=50～300维）上的一个稠密向量（Dense Vector）。

06 Word2Vec

Word2Vec的两种网络结构
- CBOW是根据上下文出现的词语来预测当前词的生成概率
- Skip-gram是根据当前词来预测上下文中各词的生成概率
Word2Vec与LDA的区别和联系
1. LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为对“文档-单词”矩阵进行分解，得到“文档- 主题”和“主题-单词”两个概率分布。
2. Word2Vec其实是对“上下文-单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。

07 图像数据不足时的处理方法

过拟合的处理方法
- 基于模型的方法
  1. 简化模型
  2. 正则化
  3. 集成学习
  4. dropout
- 基于数据的方法
  1. 数据扩充
图像变换方法
- 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等
- 对图像中的像素添加噪声扰动，比如椒盐噪声、高斯白噪声等
- 颜色变换
- 改变图像的亮度、清晰度、对比度、锐度等。
上采样
- SMOTE（Synthetic Minority Over-sampling Technique）算法
迁移学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ukakasu CSDN认证博客专家 CSDN认证企业博客

码龄9年

131: 原创

7万+: 周排名

71万+: 总排名

34万+: 访问

: 等级

4211: 积分

79: 粉丝

121: 获赞

74: 评论

480: 收藏

私信

关注

热门文章

分类专栏

python 14篇
java 10篇
HDFS 5篇
mapreduce 6篇
hive 4篇
hbase 3篇
pig 1篇
Hadoop 2篇
机器学习 33篇
大数据平台 14篇
linux 1篇
es 2篇
flume 1篇
深度学习 29篇
keras 5篇
spark 4篇
kafka 4篇
oracle 2篇
druid 1篇
数学 14篇
TensorFlow 10篇

最新评论

python中归一化、标准化模型保存与加载
weixin_50515511: min_max_scaler.inverse_transform()
HBase写入优化
G3-平头哥: 180000毫秒是30分钟？我没看懂
python中归一化、标准化模型保存与加载
十八画生减一画: 请教一下博主怎么反归一化的
python中归一化、标准化模型保存与加载
Goldbery: 你好，为什么我直接调用保存好的归一化模型会出现sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator. 求指点！
nifi mysql CDC to mysql
AlfredNing: 我想同步一个库下面的所有表，这个是不是要定义好多schema，有点麻烦吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。