不定时更新 2018.3.26
一、推荐
相关性评价方法:
欧氏距离、皮尔逊评价
对于稀疏数据集,基于物品的过滤要优于基于用户的过滤
二、聚类
tanimoto系数可用来评价两组只包含0、1数据的距离,它代表交集和并集的比率
三、搜索与排名
爬取网页(urllib2)- 连接数据库(pysqlite2)- 建立索引数据表-网页源码分词 - 利用单词建立索引 - 利用单词频度、文档位置、单词距离进行排名
使用pagerank改善搜索结果
不定时更新 2018.3.26
一、推荐
相关性评价方法:
欧氏距离、皮尔逊评价
对于稀疏数据集,基于物品的过滤要优于基于用户的过滤
二、聚类
tanimoto系数可用来评价两组只包含0、1数据的距离,它代表交集和并集的比率
三、搜索与排名
爬取网页(urllib2)- 连接数据库(pysqlite2)- 建立索引数据表-网页源码分词 - 利用单词建立索引 - 利用单词频度、文档位置、单词距离进行排名
使用pagerank改善搜索结果