spark mllib之Extracting, transforming and selecting fea

提取,转换和选择功能
本节介绍使用功能的算法,大致分为以下几类:

提取:从“原始”数据中提取特征
转换:缩放,转换或修改功能
选择:从较大的一组特征中选择一个子集
局部敏感哈希(LSH):这类算法将特征变换与其他算法相结合。

Feature Extractors
TF-IDF:是文本挖掘中广泛使用的特征向量化方法,以反映语料库中文档的术语的重要性。 用tt表示术语,dd表示文件,DD表示语料库。 术语频率TF(t,d)TF(t,d)是术语tt出现在文档dd中的次数,而文档频率DF(t,D)DF(t,D)是包含术语的文档数TT。 如果我们只使用术语频率来衡量重要性,则很容易过度强调出现频率很高的术语,但是对文档的少量信息,例如 “a”,“the”和“of”。 如果一个术语在语料库中经常出现,这意味着它不包含关于特定文档的特殊信息。 逆文档频率是一个数字量度,表示一个词语提供了多少信息:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值