建模方法:
1:数据汇总:
eg:pagerank
通过数据来反映网页的重要性,即随机一个用户处于该页的概率
2:聚类
3:特征抽取
1:频繁项集 frequent itemset:
eg:大多数用户买A的同时也购买了B,则当有用户买A的时候给他推荐B
2:相似项 similar item:协同过滤
寻找相似用户或者相似商品,用于推荐
邦弗郎尼原理:胰造正相关,即当在一定的数据中寻找特定特征,即使数据完全随机,随着数据的增长该特征也会出现并增多
TF.IDF:TF*IDF
TF:词项频率
TF(ij) = f(ij)/maxk f(kj)
即在文档j中,词项i的频率为i的频次除以频次最高的词项k的频次(归一化,不考虑停用词)
IDF:逆文档频率
假设文档数为N,词项i在n(i)篇文档中出现过则词项i的IDF为:
IDF(i)=log(2) N/n(i)
未完待需。。。