自然语言处理
文章平均质量分 66
海涛anywn
不忘初心 方得始终
展开
-
Python自然语言处理(一)--利用NLTK自带方法完成NLP基本任务
NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。NLTK安装教程:www.pythontip.com/blog/post/10011/ 下面介绍如何利用NLTK快速完成NLP基本任务一、NLTK进行分词用到的函数:nltk.sent_tokenize(text)转载 2015-09-29 11:23:04 · 3077 阅读 · 0 评论 -
基于spark实现的CRF模型的使用与源码分析
CRF基于spark实现的过程与源码分析Crf-spark实现时基于spark的LBFGS算法实现,由于在spark的mllib库中实现了LBFGS算法,因此在使用crf训练时调用该算法在spark平台上将会使迭代更加快速。缩短训练时间。源码地址:https://github.com/lihait/CRF-Spark源码是scala语言写的,将源码下载后使用sbt工具打包成原创 2016-06-03 21:21:57 · 3710 阅读 · 2 评论 -
计算文章中每个词的权重值-信息熵及代码实现
计算出每个词的信息熵可以用来作为词的权重,信息熵公式是:W代表该词,p代表该词左右出现的不同词的数目。比如现在某篇文章中出现了两次 A W C, 一次B W D那么W的左侧信息熵为:2/3表示词组A在3次中出现了2次,B只出现了一次,故为1/3.W右侧的信息熵也是一样的。如果是A W C, B W C那么W右侧就是0,因为是 -1log(1)。对所有的词原创 2016-06-29 16:15:32 · 9024 阅读 · 4 评论 -
斯坦福和NLTK英语短语词组抽取工具原理及源码理解
一、斯坦福短语抽取工具实现了四个方法来进行短语搭配抽取(1)基于统计频率数的方法该方法用于查找长度为2或者3并且连续的短语搭配。因此只处理bigrams和trigrams语料库。对于候选短语集,首先使用预定义的词性序列做一个初步的过滤,将不符合该词性序列的短语组合过滤掉。预定义的词性组合为:NN_NNJJ_NNVB_NNNN_NN_NNJJ_NN_NNNN_原创 2016-06-12 12:07:55 · 11987 阅读 · 2 评论 -
机器学习优化算法之EM算法
EM算法简介EM算法其实是一类算法的总称。EM算法分为E-Step和M-Step两步。EM算法的应用范围很广,基本机器学习需要迭代优化参数的模型在优化时都可以使用EM算法。EM算法的思想和过程E-Step:E的全称是Expectation,即期望的意思。E-step也是获取期望的过程。即根据现有的模型,计算各个观测数据输入到模型中的计算结果。这个过程称为期望值计算过程,即E过程。M原创 2016-07-13 09:05:53 · 7505 阅读 · 0 评论 -
基于标题分类的文章主题句识别与提取方法
基于标题分类的主题句提取方法基于标题分类的主题句提取方法可描述为: 给定一篇新闻报道, 计算标题与新闻主题词集的相似度, 判断标题是否具有提示性。对于提示性标题,抽取新闻报道中与其最相似的句子作为主题句; 否则, 综合利用多种特征计算新闻报道中句子的重要性, 将得分最高的句子作为主题句。算法过程:1. 构造新闻的主题词集(1) 对于爬取的有标签的或关原创 2016-06-24 17:53:46 · 9656 阅读 · 5 评论 -
Stanford-parser依存句法关系解释
ROOT:要处理文本的语句;IP:简单从句;NP:名词短语;VP:动词短语;PU:断句符,通常是句号、问号、感叹号等标点符号;LCP:方位词短语;PP:介词短语;CP:由‘的’构成的表示修饰性关系的短语;DNP:由‘的’构成的表示所属关系的短语;ADVP:副词短语;ADJP:形容词短语;DP:限定词短语;QP:量词短语;NN:常用名词;NR:固有名词;NT:ROOT:要处理文本的语句IP:原创 2016-07-02 21:19:28 · 31128 阅读 · 3 评论 -
使用CRF++进行分词的原理和实现过程
使用CRF分词的原理和实现过程目前业内分词效果最好的是CRF模型,而CRF++是CRF实现的比较成熟的工具,下面是用CRF++做分词的过程。1.使用4-tags标记,对训练语料做预处理分别用B代表词首,E代表词尾,M代表词中,S代表单字词。然后使用python将训练语料中的词处理成CRF输入的格式。如句子:海內外 關注 的 一九九七 年 七月 一 日 終於 來到原创 2016-06-22 20:58:54 · 8054 阅读 · 0 评论 -
SimHash算法原理
刚到公司项目中用到了simhash,但没有详细的了解,后来被问到原理,结果就狗带了。。下面是自己查资料和自己的一些理解,不愧是google出品,比较符合google的风格,简单实用。先贴一张网上的图片:解释一下图片:这里feature可以指一篇文档分词后的某个词,即将文档中的某个词作为一个特征。weight是这个词的权重,这里可以是这个词在这个句子中出现的次数。这里的hash算原创 2016-08-29 19:42:26 · 16965 阅读 · 5 评论 -
Stanford Parser中文句法分析器的使用
Contents一、使用时注意两点二、stanford parser 命令行使用1 处理一个中文的句子 2 词性标注 和 生成 依存关系 3 图形工具界面 三、句法分析树标注集 一、使用时注意两点:1。 中文内存大小设置:在运行--运行配置--自变量--vm参数中-加入:--Xmx1024m2。 Tokenize指的是是否分词。一定选Tokeniz原创 2016-06-01 16:29:42 · 21550 阅读 · 5 评论 -
中文分词工具Jieba
源码下载的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在原创 2016-05-06 10:19:36 · 1694 阅读 · 0 评论 -
CRF(条件随机场)
条件随机场跟隐式马可夫模型常被一起提及,条件随机场对于输入和输出的机率分布,没有如隐式马可夫模型那般强烈的假设存在。条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线原创 2016-05-05 21:12:01 · 2450 阅读 · 0 评论 -
Python自然语言处理NLTK(1.1-1.3)
使用python中的nltk包处理自然语言时可以调用很多自带的函数:text1.concordance("monstrous") :查找文本中出现参数单词的上下文text1.similar("monstrous") :查找文本中出现与参数单词相近的上下文len(text):获取文本text的长度set(text):获取text的词汇表sorted(set(text)原创 2015-10-10 19:54:41 · 1094 阅读 · 0 评论 -
语音识别中基于规则的语言模型
语音识别中基于规则的语言模型一 语言模型的选择语音识别一般分为两个阶段:1)语音识别阶段:这个阶段利用语音的声学模型,把自然的声音信号转换为机器可以处理的数字表达的音节形式。2)语音理解阶段:这个阶段把上阶段的结果即音节转换成汉字,这一阶段需使用语言模型的知识进行理解。而在语音识别中最重要的一部就是建立语言模型,提高语音识别的准确率。语言模型现在常用的一般可以分为两种:一种原创 2016-04-17 13:56:32 · 4504 阅读 · 0 评论 -
使用k近邻算法实现手写体识别
'''kNN: k Nearest NeighborsInput: inX: vector to compare to existing dataset (1xN) dataSet: size m data set of known vectors (NxM) labels: data set labels (1xM vector)原创 2016-05-12 17:42:01 · 1351 阅读 · 0 评论 -
特征提取与转换
特征提取与转换标准化(StandardScaler)标准化是指:对于训练集中的样本,基于列统计信息将数据除以方差或(且)者将数据减去其均值(结果是方差等于1,数据在0附近)。这是很常用的预处理步骤。例如,当所有的特征具有值为1的方差且/或值为0的均值时,SVM的径向基函数(RBF)核或者L1和L2正则化线性模型通常有更好的效果。标准化可以提升模型优化阶段的收敛速度,还可以避免方差很原创 2016-05-13 09:54:12 · 1028 阅读 · 0 评论 -
马尔可夫链
马尔可夫链,因安德烈·马尔可夫(A.A.Markov,1856-1922)得名,是指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。X1,X2,X3...马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。马尔可夫链是具有马尔可夫性质的随机变量的原创 2016-05-13 10:38:40 · 1713 阅读 · 0 评论 -
word2vec简介
简介word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具,采用的模型有 CBOW( Continuous Bag-Of-Words,即连续的词袋模型) 和 Skip-Gram 两种。 word2vec 代码链接为: https://code.google.com/p/word2vec/,遵循 Apache License 2.0 开源协议原创 2016-05-03 19:38:14 · 3165 阅读 · 1 评论 -
自然语言处理之语言模型综述
语言模型0 文法型语言模型文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。1 统计语言模型1).无历史,一元模型2).最近一个历史,二元模型(Bigram)3).最近N-1个历史,N元模型(N-gram)考虑词形方面的特征N-pos模型 N-gram模型主要缺点需要大原创 2016-04-15 10:35:13 · 3980 阅读 · 0 评论 -
TF-IDF介绍及应用
TF-IDF基本概念TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF指词频,IDF指逆向文件频率。主要用于评估某个字词对于一篇文章或一个语料库里的一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引原创 2016-05-03 20:13:10 · 4794 阅读 · 0 评论 -
Word2vec 句向量模型PV-DM与PV-DBOW
参考原文:LE, Quoc V.; MIKOLOV, Tomas. Distributed representations of sentences and documents. arXiv preprint arXiv:1405.4053, 2014.这篇论文提出了一个使用Word2vec的原理创建句子的特征向量的方法,阅读需要先掌握Word2vec的相关知识,这里推荐一篇博文《Word转载 2016-08-24 11:38:27 · 12272 阅读 · 0 评论