自然语言处理
文章平均质量分 73
tattarrattat
A man,a pIan,a canal---Panama
展开
-
数学之美 系列二 -- 谈谈中文分词
数学之美 系列二 -- 谈谈中文分词2006年4月10日 上午 08:10:00uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官转载 2006-12-21 15:04:00 · 2456 阅读 · 0 评论 -
敏感词过滤算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式 <br />字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传II字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之理论如此 <br />使用DFA实现文字过滤<br />Dfa和文字过滤 <br />文字过滤是一原创 2010-09-17 10:14:00 · 28900 阅读 · 2 评论 -
搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 搜索引擎重复网页发现技术分析 中科院软件所 张俊林一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一转载 2009-07-02 17:00:00 · 1006 阅读 · 0 评论 -
biggram
采用Bigram 方法[4]进行字符串相似性度量,设有字符串属性r1 和r2,令Gr1 和Gr2 分别表示字符串的Bigram 集合,则2 个字符串的相似性分数计算公式为 http://en.wikipedia.org/wiki/BigramFrom Wikipedia, the free encyclopediaJump to: navigation, search原创 2009-05-26 18:02:00 · 1515 阅读 · 0 评论 -
协方差矩阵, 相关系数矩阵
变量说明:设为一组随机变量,这些随机变量构成随机向量 ,每个随机变量有m个样本,则有样本矩阵 (1)其中 对应着每个随机向量X的样本向量, 对应着第i个随机单变量的所有样本值构成的向量。 单随机变量间的协方差:随机变量 之间的协方差可以表示为原创 2008-10-19 20:51:00 · 49540 阅读 · 5 评论 -
Search Engine Ranking Factors V2
http://groups.google.com/group/wsm_nlsde/web/search-engine-ranking-factors-v2原创 2008-09-25 15:30:00 · 1266 阅读 · 0 评论 -
php+lucene+pdo+mysql Sphin基于sql的开源全文检索系统
最近在写CONE管理系统,发现php+lucene +pdo +mysql的实现,实现一个简单的检索,还是可行的。 在ZendFramework里还有一个Lucene的PHP版本实现,也可以算是Lucene的一种语言分支,不过PHP Lucene并不像Perl Lucene实现得那么完整,它有很多的方法都是空的,它只是实现了Lucene的功能,提供一个可用的平台。当然PHP Lucene的原创 2008-06-10 13:55:00 · 2516 阅读 · 0 评论 -
用LIBSVM做回归和预测
下载Libsvm、Python和Gnuplot。我用的版本分别是:Libsvm(2.8.1),Python(2.4),Gnuplot(3.7.3)。注意:Gnuplot一定要用3.7.3版,3.7.1版的有bug. 修改训练和测试数据的格式(可以自己用perl编个小程序):目标值 第一维特征编号:第一维特征值 第二维特征编号:第二维特征值 ......例如:2.3 1:5.6 2:3.2表示训练转载 2008-08-04 11:11:00 · 3001 阅读 · 0 评论 -
libSVM入门
为什么写这个指南我一直觉得 SVM 是个很有趣的东西,不过一直沒办法去听林智仁老師 的 Data mining与SVM的课,后来看了一些Internet上的文件,后来听 kcwu 讲了一下 libsvm 的用法后,就想整理一下,算是对于并不需要知道完整 SVM 理论的人提供使用 libsvm 的入门。 原始 libsvm 的README跟FAQ也是很好的文件, 不过你可能要先对 svm 跟流程转载 2008-07-31 11:39:00 · 1342 阅读 · 0 评论 -
Google 网页排名背后的技术
搜索排名的核心技术源自已有50年历史的学术课题 Information Retrieval (IR),IR 技术使用统计学原理对文字的使用频率等属性进行研究并对结果进行排名。建立在 IR 理论上的 Google 搜索同时借助链接,网页结构等等技术形成独特的搜索技术。理解网页多年来在网络爬虫与索引系统上投入巨资,因此,Google 拥有非常庞大并且是最新的网页索引,除此之外,Google 还使用一转载 2008-07-21 17:44:00 · 1906 阅读 · 0 评论 -
Antispam,反垃圾,反作弊
关键词:搜索引擎优化 反作弊 antispamAntispam 就是反垃圾、反作弊的意思,spam的意思是:兜售信息[邮件,广告,新闻,文章],非索要信息。与垃圾邮件(junk mail)同义。Anti就是反对、去除的意思。这个词汇多用于反垃圾邮件。也用于形容搜索引擎反垃圾信息。Spam和antispam在搜索引擎诞生之 日起就开始了无休止的搏杀。因为有巨大的商业利益掺杂其中。原创 2007-05-28 16:26:00 · 1984 阅读 · 0 评论 -
搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscrip转载 2007-01-16 18:05:00 · 1051 阅读 · 0 评论 -
wrapper generator 分装器生成系统简介
早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发一个分装器程序,把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13,25,28,29]系统和“斯坦福-IBM多信息源管理系统(1995)”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的转载 2007-01-08 15:41:00 · 2898 阅读 · 0 评论 -
搜索引擎中网络爬虫的设计分析
搜索引擎中网络爬虫的设计分析 1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】转载 2007-01-10 16:31:00 · 1163 阅读 · 0 评论 -
搜索引擎学习资源收集
一、搜索引擎技术/动态资源、综合类1、卢亮的搜索引擎研究 http://www.wespoke.com/卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。2、laolublog 有不少来自国外的关于搜索引转载 2007-01-10 16:13:00 · 2712 阅读 · 0 评论 -
信息抽取
网上信息抽取技术纵览Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3) 第一章 导论 信息抽取(Inf原创 2007-01-08 15:33:00 · 8489 阅读 · 0 评论 -
信息检索领域相关资料
zz from http://net.pku.edu.cn/~webg/IR-Guide.txt信息检索领域相关资料 (A Guide to Information Retrieval)Organized by Hongfei YanLast updated on April 19, 2006---------------------Contents Books转载 2006-12-29 13:54:00 · 4983 阅读 · 2 评论 -
Google 黑板报 -- 数学之美 系列
Google 黑板报 -- 数学之美 系列Google 黑板报 -- 数学之美 系列一 -- 统计语言模型 Google 黑板报 -- 数学之美 系列二 -- 谈谈中文分词 Google 黑板报 -- 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用 Google 黑板报 -- 数学之美 系列四 -- 怎样度量信息 Google 黑板报 -- 数学之美 系列五 -原创 2006-12-21 15:07:00 · 5550 阅读 · 0 评论 -
转 脏字/ 敏感词汇搜索算法
字符串多模式精确匹配(脏字/敏感词汇/关键字过滤算法)——TTMP算法 之实战F模式Sumtec 2008-02-08 22:49 阅读:6353 评论:15 字符串多模式精确匹配(脏字/敏感词汇搜索算法)——TTMP算法 之B模式概述Sumtec 2008-02-04 17:51 阅读:2520 评论:6 字符串多模式精确匹配(脏字/敏感词汇搜索算法) 之算法前传IISumtec 2008-02-03 15:13 阅读:2896 评论:11 字符串多模式精确匹转载 2010-09-17 09:16:00 · 3910 阅读 · 0 评论