自然语言处理(NLP)
西二旗小码农
爱搜索,爱互联网,愿意为之抛头颅洒热血,搜索推荐工程师一枚。
展开
-
统计语言模型
也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 G转载 2011-09-30 10:34:57 · 477 阅读 · 0 评论 -
杂谈:用户的搜索意图(intention of SE users)
搜索引擎早已经成为互联网上的最大的应用之一了,可是新闻媒体已经研究人员很难拿到相关的数据来对它进行深入的研究。之所以不知庐山真面目,只缘看不到真正的有价值的数据及其分析。 在搜索引擎领域,用户的搜索意图分析是一个关键领域,主要研究的方向是用户输入的关键词的真正意图。就拿最常见的搜索关键词:木乃伊3下载,这个搜索的意图非常明显,用户就是要找到能下载木乃伊3的一个网址。另外例如像n73这样的搜索词,转载 2012-04-30 21:41:20 · 2046 阅读 · 0 评论 -
由Java中的Set,List,Map引出的排序技巧
一。关于概念: List接口对Collection进行了简单的扩充,它的具体实现类常用的有ArrayList和LinkedList。你可以将任何东西放到一个List容器中,并在需要时从中取出。ArrayList从其命名中可以看出它是一种类似数组的形式进行存储,因此它的随机访问速度极快,而LinkedList的内部实现是链表,它适合于在链表中间需要频繁进行插入和删除操作。在具转载 2012-02-20 17:25:42 · 726 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce
大量高效的MapReduce程序因为它简单的编写方法而产生:除了准备输入数据之外,程序员只需要实现mapper和ruducer接口,或加上合并器(combiner)和分配器(partitioner)。所有其他方面的执行都透明地控制在由一个节点到上千个节点组成的,数据级别达到GB到PB级别的集群的执行框架中。然而,这就意味着程序员想在上面实现的算法必须表现为一些严格定义的组件,必须用特殊的方法把它们转载 2012-01-11 12:40:18 · 1414 阅读 · 0 评论 -
MapReduce and K-Means Clustering
Google offers slides and presentations on many research topics online including distributed systems. And one of these presentations discusses MapReduce in the context of clustering algorithms.转载 2011-12-14 22:29:42 · 1061 阅读 · 0 评论 -
一些常用的开源分词工具
SCWS: Author:Hightman 算法:基于词频词典的机械中文分词引擎,采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词 准确率:经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 性能:45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒, 语言和平台:SCWS转载 2011-12-11 11:20:40 · 2831 阅读 · 0 评论 -
淘宝吴雪军:自然语言处理技术在搜索和广告中的应用
编者按:本文为淘宝广告技术部广告算法负责人、淘宝网研究员吴雪军在8月3日CTO俱乐部沙龙演讲实录,全文如下: 我今天演讲的题目是自然语言处理技术在搜索和广告中的应用。搜索和广告是技术非常密集两个互联网产品,它们前端都非常简单,但后台系统架构极其复杂。 今天主要讲三个方面的内容:第一、主要是介绍一比较典型的互联网应用体系;第二、主要介绍NLP技术在搜索中的应用;第三、介绍NLP技术在物联网广告中转载 2011-11-11 11:49:38 · 2575 阅读 · 0 评论 -
编辑距离
我们来看一个实际应用。现代搜索技术的发展很多以提供优质、高效的服务作为目标。比如说:baidu、google、sousou等知名全文搜索系统。当我们输入一个错误的query="Jave" 的时候,返回中有大量包含正确的拼写 "Java"的网页。当然这里面用到的技术绝对不会是我们今天讲的怎么简单。但我想说的是:字符串的相似度计算也是做到这一点的方法之一。 字符串编辑距离: 是一种字符串之间转载 2011-10-21 15:14:44 · 518 阅读 · 0 评论 -
数学之美系列二:谈谈中文分词
谈谈中文分词----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员转载 2011-09-30 10:46:51 · 454 阅读 · 0 评论 -
如何识别字符编码
网上看到这样一段代码: String encode = "GB2312"; try { if (str.equals(new String(str.getBytes(encode), encode))) { String s = encode; return s; } } catch (Exception exception) { } 首先通过原创 2012-05-15 17:56:25 · 2031 阅读 · 0 评论