![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 79
iteye_13934
这个作者很懒,什么都没留下…
展开
-
百度分词技术
之前在点石茶话会上也有重点讨论过百度分词算法,那时很多SEOer都认为百度在测试分词技术中,有些关键词带公司字眼的关键词,在搜索结果内容时基本上跟关键词不乎核,下面是中科院软件所张俊林一篇百度分词算法的三步曲,希望能帮SEOer解答一些关于百算分词算法的问题,内容可能长点,各位慢慢消化!查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量,作...原创 2012-07-09 22:38:00 · 183 阅读 · 0 评论 -
互联网时代的社会语言学:基于SNS的文本数据挖掘
互联网时代的社会语言学:基于SNS的文本数据挖掘本文转载于[url]http://www.matrix67.com/blog/archives/5044[/url][b][i]几个概念[/i][/b][b]凝固度[/b]我们定义“电影院”的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,“的...原创 2012-10-16 10:34:58 · 166 阅读 · 0 评论 -
中文分词工具|页面分词
在研究百度中文分词的时候,最好的方法是借助中文分词工具,在这里搜寻了一些工具,希望对大家有所帮助。接下来,在此基础上发现好的分词工具再进行完善!中文分词工具:1) MSRSeg from Microsoft Research[url]http://research.microsoft.com/~jfgao/[/url]2) Hylanda[url]http://www.hy...原创 2012-10-11 00:23:37 · 690 阅读 · 0 评论 -
文本特征提取方法研究
[size=x-large]文本特征提取方法研究[/size][size=large]一、课题背景概述[/size]文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分...原创 2013-06-09 17:22:48 · 159 阅读 · 0 评论 -
开源分类器
[size=large][b][url=http://www.csie.ntu.edu.tw/~cjlin/libsvm/]Libsvm[/url]是台湾大学林智仁教授等研究人员开发的一个用于支持向量机分类,回归分析及分布估计的c/c++开源库。另外,它也可以用于解决多类分类问题。[url=http://www.cs.waikato.ac.nz/ml/weka/]Weka[/url]是一个...原创 2012-09-10 00:10:56 · 229 阅读 · 0 评论 -
Java自然语言处理 LingPipe
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Int...原创 2012-02-29 23:25:20 · 493 阅读 · 0 评论 -
Lingpipe中的spell模块-搜索建议
[b]搜索建议[/b]Lingpipe提供了一种可选择的拼写纠错方式,能对用户未输入完整的查询进行提示最相近的查询建议。图片中显示了google搜索框中的选择性纠错模型对查询进行补充完整。例如,首行搜索建议词是”amzon”,尽管用户输入查询”anaz”,这并不惊奇,因为那些以”anaz”为前缀的建议词的搜索结果比较小。不仅有词的搜索建议,还有短语纠错建议。比如一些搜索词像...原创 2012-02-27 23:45:30 · 132 阅读 · 0 评论 -
Lingpipe中的spell模块-拼写纠错
[b]基本模型[/b]基本技术工作如下:搜索引擎提供可使用的稳定被用来索引和被训练成为一种语言模型。这种语言模型存储的是短语和短语统计的特征信息。当提交一个查询时,类src/QuerySpellCheck.java 在模型中寻找与之匹配的字符编辑操作,诸如字符截取,插入,替换,转换和删除等等,这样使查询更好的适用于语言模型。如果你提交一个查询"Gretski",模型中的数据来源为rec...原创 2012-02-27 23:00:03 · 199 阅读 · 0 评论 -
搜索引擎查询相关提示功能(搜索建议)
[color=red] 相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长今下载”等等相关的一些其它用户查询.那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用户相关查询呢?我们还是以百度为例子来看看怎么实现这个功能.要实...原创 2012-07-09 22:50:19 · 678 阅读 · 0 评论 -
Spelling Checker拼写检查错误提示(以及拼音提示功能)
[color=olive] 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. 我们分析拼写检查系统关注以下几个问题: (1)系统如何判断用户的输入是有可能发生错误的查询呢? (2)如果判断是可能错误的查询输入...原创 2012-07-09 22:45:29 · 860 阅读 · 0 评论 -
关键词抽取(keywords extraction)的相关研究
[b]现有上线的关键词提取算法[/b]1. 语言特征+位置特征,如标题中的名词2. 对正文+标题的文本构造PAT,然后从中计算字符串的左右熵,互信息来抽取关键词参考论文《PAT-Tree-Based Keyword Extraction for Chinese Information Retrival》《Updateable PAT-Tree Approach to Chinese...原创 2012-12-22 15:14:05 · 605 阅读 · 0 评论