大数据学习笔记1

文档分类

通常文档中最常出现的词都是无意义的常用词,而关于主题的词语通常出现的并不多,但又不是所有少见的词都有用。

1.找出跟主题相关的重要词汇;

2. 计算TF.IDF,度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF(Term Frequency, Inverse Document Frequency)

TF_{ij} = f_{ij}/max_kf_{kj}

f_{ij}表示词项i在文档j中出现的频率,而max_kf_{kj}表示最大词项x出现在j中的频率

IDF_i = log2N/n_i

词项i在文档集中的n_i篇文档中出现

具有最高TF.IDF得分的那些词项通常都是刻画文档主题的最佳词项


自然对数e

常数e=2.7182818

1. x趋近于无穷大时,(1+1/x)^x = e


幂定律

两个变量之间在对数空间下呈现线性关系,称为幂定律(power law)




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值