机器学习
文章平均质量分 82
lolosoha
这个作者很懒,什么都没留下…
展开
-
从提取网页关键词到TF-IDF
这个标题看上去好像很复杂,其实是一个很简单的问题。如果我有一个网页,我要得到这个网页的关键词,要怎么做到呢?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但有一个非常简单的经典算法,却可以给出令人相当满意的结果。这就是TF-IDF算法,这个概念是由剑桥大学计算机女科学家斯巴克⋅\cdot琼斯提出,被认为是信息检索中最重要的发明。一个容易想到的思路,就是找到该网页中出现次数最多的词。原创 2017-05-21 21:40:20 · 1075 阅读 · 0 评论 -
余弦相似定理和新闻分类
余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中(聚类)。转载 2017-05-21 22:47:38 · 1449 阅读 · 0 评论 -
电影推荐实例--基于协同过滤和DL特征提取的比较
最近读到了一篇有意思的文章:如何用深度学习推荐电影1,我顺着文章的思路实现了一遍,补全了原文中缺失的code,也加入了一些避免重复操作的code,亦做记录亦作分享。本项目主要实现了基于「1」协同过滤「2」DL特征提取进行电影推荐。原创 2017-05-21 03:10:05 · 7542 阅读 · 4 评论