自然语言处理
文章平均质量分 80
wbglearn
语音识别 机器学习 推荐系统 深度学习欢迎和大家讨论和交流。
展开
-
搜索引擎算法之初探——PageRank、DocRank
从文档集合中找出出现搜索词的文档,进一步可能是通过搜索词在文档中出现的次数来对文档排名,这种搜索就是信息检索(Information retrieval)。有很多现有的库可以很方便的就让我们做出来这些工作,其中最有名的当属Lucene了。当然,现在的搜索已不单单是索引了,而在于链接分析、用户点击分析和自然语言处理等方面,这些技术能大大的增强搜索的性能。基本搜索构建一个搜索引擎的基本步骤转载 2013-08-20 19:41:06 · 1373 阅读 · 0 评论 -
中文分词技术(中文分词原理)
中文分词技术(中文分词原理)一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、转载 2013-09-05 21:08:54 · 1984 阅读 · 0 评论 -
致2013级学弟学妹----语音和其他
今天由于去教研室弄研究生数学建模,很开心由于我的到来,大家都来实验室。然而,大家在教研室做的事情让我感觉大家还是比较迷茫。而我又是一个多事的人,所以特写下此文,希望可以可以给大家一些帮助,如有任何问题,欢迎讨论。 ok,进入正题。 首先,我来说说语音的事情吧。实验室的很多事情都和语音有关,所以做图像和视频的或许你只是借鉴这些想法吧。第一,介绍书吧。网址:http://n原创 2013-09-08 20:25:15 · 3425 阅读 · 4 评论 -
从文档相似度计算看LSH(Locality Sensitive Hashing)
经常使用的哈希函数,冲突总是不招人喜欢。LSH却依赖于冲突,在解决NNS(Nearest neighbor search )时,我们期望:•离得越近的对象,发生冲突的概率越高•离得越远的对象,发生冲突的概率越低由于是依靠概率来区分,总会有错判的问题(false positives/negatives)。由于LSH排除了不可能的对象集合,减少了需要处理的数据量,在NNS领域有很多成功的应转载 2013-10-13 00:29:51 · 1642 阅读 · 0 评论 -
公开课可下载资源汇总
微博上经常有同学分享一些公开课资源,包括可下载的网盘资源,课件资源等等,但是时间长了就忘了在哪里了。另外Coursera官方也推荐一 些第三方批量下载工具,大家下载课程后也可以考虑共享到网盘里,减轻Coursera官方的下载压力。这里计划做一个汇总,包括一些佚名的来自网络上的课 程资源分享,也欢迎大家提供线索或者补充公开课网盘资源。1、Coursera上Andrew Ng老师的”机器学习公开课转载 2013-10-26 22:31:46 · 4909 阅读 · 0 评论 -
12本北美比较常用的机器学习/自然语言处理/语音处理经典书籍 .
转载 2013-10-23 22:39:02 · 2621 阅读 · 0 评论 -
公开课笔记大盘点
转自:http://blog.coursegraph.com/公开课笔记大盘点网上散落了很多同学的公开课学习笔记,这里就尝试来做一些汇总和整理,也欢迎大家提供线索。1、Coursera上Andrew Ng老师的”机器学习公开课(Machine Learning)”课程图谱上的明星课程,关注人数最多,评论最多,并且网上这门课程的笔记也是相当的多:1)@小小人_转载 2013-12-06 22:57:54 · 1558 阅读 · 0 评论