自然语言处理NLP
wukk007
这个作者很懒,什么都没留下…
展开
-
如何计算两个文档的相似度(三)
上一节我们用了一个简单的例子过了一遍gensim的用法,这一节我们将用课程图谱的实际数据来做一些验证和改进,同时会用到NLTK来对课程的英文数据做预处理。 三、课程图谱相关实验 1、数据准备 为了方便大家一起来做验证,这里准备了一份Coursera的课程数据,可以在这里下载:coursera_corpus,总共379个课程,每行包括3部分内容:课程名\t课程简介\t课程详情, 已经清除了其中转载 2014-06-12 11:21:14 · 690 阅读 · 0 评论 -
如何计算两个文档的相似度(二)
上一节我们介绍了一些背景知识以及gensim , 相信很多同学已经尝试过了。这一节将从gensim最基本的安装讲起,然后举一个非常简单的例子用以说明如何使用gensim,下一节再介绍其在课程图谱上的应用。 二、gensim的安装和使用 1、安装 gensim依赖NumPy和SciPy这两大Python科学计算工具包,一种简单的安装方法是pip install,但是国内因为网络的缘故常常失转载 2014-06-12 11:20:07 · 762 阅读 · 0 评论 -
如何计算两个文档的相似度(一)
前几天,我发布了一个和在线教育相关的网站:课程图谱,这个网站的目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课,特别是目前最火的Coursera,Udacity等公开课平台上的课程。在发布之前,遇到的一个问题是如何找到两个相关的公开课,最早的计划是通过用户对课程的关注和用户对用户的关注来做推荐,譬如“你关注的朋友也关注这些课程”,但是问题是网站发布之前,我还没有积累用户关注的数据转载 2014-06-12 11:22:10 · 1062 阅读 · 0 评论 -
MapReduce与自然语言处理
来自:http://www.52nlp.cn/mapreduce%E4%B8%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86转载 2014-08-27 09:26:27 · 897 阅读 · 0 评论 -
四篇应该仔细读的关于文本分析的tutorial类文章
来自:http://jacoxu.com/?p=415转载 2014-08-15 11:34:36 · 1103 阅读 · 0 评论