自然语言处理
文章平均质量分 70
longjing1113
这个作者很懒,什么都没留下…
展开
-
模式识别基础
第一章 绪论 主要的知识点: (1)模式识别学科建立的背景;学科要解决的根本任务;通过与人学会辨认事物的过程的对比,说明模式识别典型系统的功能。 (2)模式的描述方法。说明特征向量表示与结构表示法的概念;通过典型事例说明这两种表示法的基本概念与两者之间的区别;由特征向量引入特征空间的概念。 (3)统计模式识别与结构模式识别举例说明基于特征向量表示法相应的模式识别方法转载 2012-10-30 22:26:44 · 1039 阅读 · 0 评论 -
隐马尔可夫模型--3
马尔科夫链:想象成一台机器,随机选择一个状态为初始状态,按照马尔科夫链规则随机选择后续状态,运行一段时间后,会产生一个状态序列:s1,s2,s3……st.看到这个序列的人,可以输出某个状态mi出现的次数#(mi),以及从mi转换到mj的次数#(mi,mj),从而估计出从mi到mj的转移概率#(mi,mj)/#(mi)。 隐含马尔科夫模型是马尔科夫链的一个扩展:任一时刻t的状态st都转载 2012-11-07 17:45:20 · 821 阅读 · 0 评论 -
图论与网络爬虫
广度优先搜索 Breadth-First Search (BFS)深度优先搜索 Depth-First Search (DFS) 网络爬虫:从任何一个网页出发,用图的遍历算法,自动访问每个网页并把它们存储起来,完成这个功能的程序叫Web Crawlers. 构建网络爬虫的工程要点:1、在有限时间里最多的爬下最重要的网页: 重要:首页。再扩大爬虫,从首页扩展转载 2012-11-19 18:31:52 · 1502 阅读 · 0 评论 -
拼音输入法
输入法输入汉字的快慢取决于 对汉字编码的平均长度,也就是 击键次数 乘以 寻找这个键所需要的时间。对汉字的编码分为两部分:对拼音的编码和消除歧义性的编码最终选择拼音输入法,原因有三个优点,可以让他输入速度并不慢:1、不需要专门学习2、输入自然,不会中断思维,也就是找每个键的时间非常短3、编码长,有信息冗余量,容错性好 然后要解决的问题是。排除一音多字的歧义性。 对常转载 2012-12-04 21:17:03 · 897 阅读 · 1 评论 -
给定查询的网页综合排名
给定查询,有关网页的综合排名=网页排名(PageRank)*相关性(TF-IDF) 网页质量对于一个特定的查询,搜索结果的排名取决于两组信息,关于网页的质量和这个查询与每个网页的相关性信息。PageRank算法--衡量网页质量简单说,民主表决。一个网页被很多其他网页链接,它的认可度高,可靠性高,计算排名时,需要给予较大的权重。二维矩阵相乘的问题,用迭代方法解决。Bi转载 2012-11-22 09:29:56 · 487 阅读 · 0 评论 -
布隆过滤器
布隆过滤器(Bloom Filter)是1970年由Burton Howard Bloom提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。布隆过滤器用来过滤垃圾邮件,一个方法就是记录下那些发送垃圾邮件的E-mail地址。但是那些发送者不停地转载 2012-12-15 21:57:34 · 1919 阅读 · 0 评论 -
矩阵运算和文本处理中两个分类的问题
矩阵运算和文本处理中两个分类的问题 文本和词汇的矩阵在NLP中,最常见的两个分类是,将文本按主题归类 和 将词汇表中的字词按意思归类。——都可以用矩阵计算圆满解决。分类的本质是 聚类问题。 分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角转载 2013-01-07 16:07:19 · 3254 阅读 · 0 评论 -
有限状态机和动态规划——地图和本地搜索基本技术
地址识别和有限状态机地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。每一个有限状态机,都有一个开始状态和一个终止状态,以及若干中间状态。每一个弧上带有从一个状态进入下一个状态的条件。若能从开始状态达到终止状态,则这条地址有效。使用有限状态机识别地址,关键解决两个问题:1、通过有效地址建立状态机,(有了关于地址的有限状态机后转载 2013-01-07 10:50:18 · 3141 阅读 · 0 评论 -
余弦定理和新闻分类
新闻的特征向量把文字的新闻变成一组可计算的数字,再设计一个算法类计算任意两篇新闻的相似性。找一组数字(或者向量)描述一篇新闻,词是信息的载体,因此要对每个实词的重要性进行排序。在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大转载 2013-01-07 11:13:56 · 2489 阅读 · 0 评论 -
期望最大化算法EM
1、文本的自动收敛分类文本TF-IDF向量的计算,余弦距离的计算;随机挑出一些类的中心,优化这些中心,使它们和真实的中心和真实的聚类中心尽可能一致。类数可以确定,也可以不定。分类步骤:(1)随机选K个点,作为起始中心(2)计算所有点到这些聚类中心的距离,把这些点归到最近的一类中(3)重新计算每一类的中心,最简单的是用每一类的中心作为新的中心(分别计算每一维的平均值)。新转载 2012-11-29 17:29:02 · 2427 阅读 · 0 评论 -
索引基础
本文节选自《这就是搜索引擎:核心技术详解》第三章 本节通过引入简单实例,介绍与搜索引擎索引有关的一些基础概念,了解这些基础概念对于后续深入了解索引的工作机制非常重要。 3.1.1单词—文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位转载 2012-11-13 20:36:01 · 431 阅读 · 0 评论 -
如何建立索引
本文节选自《这就是搜索引擎:核心技术详解》第三章3.4建立索引 正如前述章节所述,索引结构如果建立好了,可以增加搜索的速度,那么给定一个文档集合,索引是如何建立起来的呢?建立索引的方式有很多种,本节叙述比较实用的三种建立索引的方法。 3.4.1两遍文档遍历法(2-Pass In-Memory Inversion) 顾名思义,此种方法转载 2012-11-13 21:06:54 · 593 阅读 · 0 评论 -
统计语言模型-1
自然语言上下文相关的特性建立模型——统计语言模型(statistical language model)一个句子是否合理,看它的可能性大小如何。如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,S在文本中出现的可能性,于是P(S) 可展开为: P(S) = =P(w1,w2,w3,……,wn)根据条件概率:P(S) = =P(w1,w2,w3,……原创 2012-10-31 16:39:40 · 725 阅读 · 0 评论 -
中文分词--2
语言模型建立在词的基础上。中文的词之间没有明确的分界符---->分词。最简单的方法,查字典(梁南元):把句子从左到右扫描,遇到字典有的词就表示出来,遇到复合词就找到最长的词匹配,不认识的词就分割成字。解决七八成的问题。 最少词数的分词理论(王晓龙):一句话应该分成数量最少的词串。但是仍存在歧义性。 统计学模型(郭进)解决分词二义性:最好的分词方法应该保证分词后这个句子的转载 2012-11-01 10:16:53 · 851 阅读 · 0 评论 -
维特比算法
用于自然语言处理的解码。是 动态规划算法, 解码算法,解决 篱笆网络有向图的最短路径问题。凡是隐马尔科夫模型描述问题都可以用它来解码。 寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states) 对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找到生成此序列最可能的隐藏状态序列。1.转载 2012-11-07 17:58:07 · 1535 阅读 · 0 评论 -
GMM高斯混合模型
Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在clustering 集群上之外,还经常被用于 density estimation 密度估计),简单地说,k-means 的结果是每个数据点被 分配 到其中某一个 cluster 了,而 GMM 则给出这些数据点被 分配到每个转载 2012-11-08 16:49:55 · 1583 阅读 · 1 评论 -
信息指纹
信息指纹可以理解为 将一段信息(文字,图片,音频,视频等)随机地 映射到 一个多维二进制空间中的一个点(一个二进制数字)。随机函数做得好,不同信息对应的点不会重合,这些二进制的数字为原来信息所具有的独一无二的指纹。 用来提高存储空间,节约查找时间的。信息指纹 有 网址的消重性,密码性。它具有不可逆性,即无法根据信息指纹推出原有信息。 映射函数为 伪随机数产生器。加密的伪随机数产转载 2012-11-26 15:15:51 · 1244 阅读 · 1 评论 -
前向算法
前向算法(Forward Algorithm)计算观察序列的概率(Finding the probability of an observed sequence)1.穷举搜索( Exhaustive search for solution) 给定隐马尔科夫模型,也就是在模型参数(pi, A, B)已知的情况下,我们想找到观察序列的概率。还是考虑天气这个例子,我们有一个用来描述天气及与转载 2012-11-12 19:54:04 · 1269 阅读 · 0 评论 -
搜索引擎反作弊
作弊的本质是:在网页排名信号中,加入噪音,反作弊的关键是,去除噪音。 早期作弊方法:重复关键词,卖链接。 针对商业相关的搜索,采用一套 抗干扰 强的搜索算法。出链向量间余弦距离几乎为1(卖链接)。作弊网站需要相互链接,形成一个Clique,互联网大图中有一些Clique,用图论知识解决。 具体:http://blog.csdn.net/malefactor/arti转载 2012-11-27 18:11:07 · 697 阅读 · 0 评论 -
最大熵模型
不要把所有信息放到一个篮子里,降低风险。知道各种各样但又不完全确定的信息,用一个统一的模型将这些信息综合起来。——将风险降到最小,保留全部的不确定性,让熵最大。对一个随机事件概率分布进行预测时,预测应满足全部已知条件,而对未知情况不做任何主观假设。在这种情况下,概率分布最均匀,预测风险最小。因为这时概率分布的信息熵最大,这种模型叫“最大熵模型”。最大熵模型应用于:计算量不太大的NLP问转载 2012-11-28 14:47:47 · 1693 阅读 · 0 评论 -
贝叶斯网络
1、 贝叶斯网络我们在前面的系列中多次提到马尔可夫链 (Markov Chain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。马尔科夫假设成立,即每一个状态只和与它直接相连的状态有关,而和它间接相连的状态没有直接关系,则为贝叶斯转载 2013-01-07 18:17:10 · 1910 阅读 · 0 评论