数据挖掘
文章平均质量分 80
qq_43134495
这个作者很懒,什么都没留下…
展开
-
MapReduce的关系代数运算
关系代数 概念 R(A1,A2,...,An)R(A_1,A_2,...,A_n)R(A1,A2,...,An)表示关系的名称是RRR,其属性是A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An。 例如Link关系中有两个属性From和To,一个元组(url1,url2)(url1,url2)(url1,url2)表示从链接1指向链接2。 选择(selection) 筛选关系R中符合条件C的元组,记为:σC(R)\sigma_C(R)σC(R)。 投影(proje原创 2022-02-08 19:51:08 · 1995 阅读 · 0 评论 -
TF.IDF指标
定义 度量给定词语在少数文档中反复出现程度的形式化指标称为TF.IDF。 TF(term frequency): 词项频率。 IDF(inverse document frequency): 逆文档频率。 TF.IDF 为二者的乘积。 计算方法 文档集中有NNN 篇文档,fijf_{ij}fij为词项iii在文档jjj中出现的次数,则TFij=fijmaxkfkjTF_{ij}=\frac{f_{ij}}{max_kf_{kj}}TFij=maxkfkjfij 即归一化处理,除以文档jjj中最高原创 2022-02-05 12:03:17 · 1028 阅读 · 0 评论