数据挖掘：类型特征转换

最新推荐文章于 2021-03-09 01:12:52 发布

明月映雪

最新推荐文章于 2021-03-09 01:12:52 发布

阅读量732

点赞数

分类专栏：数据挖掘文章标签：数据挖掘大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ren_x_guo/article/details/106611525

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近开始学习机器学习知识，将所学知识记录在此，以备日后学习。
1-of-k(哑编码)：
功能：将非数值型的特征值（类别类型的）转换为数值型的数据。
描述：假设变量取值有K个，如果对这些值用1到K偏序，则可用维度为K的向量来表示一个变量的值。这样的向量里，该取值所对应的序号所在的元素为1，其他元素均为0。（其实就是搞成一个矩阵）

词袋法：
描述：将文本当做一个无序的数据集合，文本特征可以采用文本中的词条T进行体现，那么文本中出现的所有词条及其出现的次数就可以体现文档的特征。

TF-IDF：
描述：词条的重要性随着其在文件中出现的次数成比例增加，但同时会随着他在语料库中出现的频率成反比下降（一个词条在某个文本中出现次数越多，在语料库中出现的次数越少，说明该词条对该文本的重要性越高）。TF（词频） 指某个词条在文本中出现的次数，一般将其进行归化处理（该词条数量/该文档中所有词条数量）；IDF（逆向文件频率） 指一个词条重要性的度量，一般计算方式为总文件数目除以包含该词语的文件数目，在将得到的商取对数。TF-IDF实际上是：TF*IDF。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。