![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
lilong117194
“The world is not made of strings , but is made of things.”
展开
-
中文分词之维特比算法详解
这里我们先来简单复习一下概率论中的一些基本知识:事件A在另外一个事件B已经发生条件下的发生概率,称为条件概率,记为P(A|B)。 两个事件共同发生的概率称为联合概率。A与B的联合概率表示为 P(AB) 或者P(A,B)。 进而有,P(AB) = P(B)P(A|B)=P(A)P(B|A)。这也就导出了最简单形式的贝叶斯公式,即P(A|B)=P(B|A)*P(A)/P(B) 以及条件概...原创 2018-07-17 23:56:57 · 6725 阅读 · 1 评论 -
关键词提取算法—TF/IDF算法
关键词提取算法一般可分为有监督学习和无监督学习两类。有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点是可以获得较高的精度,缺点是需要大批量的标注数据,并且要对词表进行人工维护。无监督学习既不需要词表也不需要标注语料,也因此无监督的学习得到了大量的应用。TF-IDF(term f...原创 2018-10-24 01:09:52 · 5174 阅读 · 1 评论 -
基于条件随机场的命名实体识别
我们知道HMM将分词作为字标注问题来解决,其中有两条独立性假设:一个是输出观察值之间严格独立,二是状态的转移过程中当前状态只与前一个状态有关(一阶马尔可夫型)。...原创 2018-10-20 22:30:50 · 2321 阅读 · 0 评论 -
CRF++使用简介(windows下非接口)
CRF简介CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具。CRF 的工具有两种,一种是支持Linux环境的,一种是支持Windows环境的,大家可以自行根据自己的系统进行下载。(在此我下载的是CRF++ -0.58)linu的安装应该简单些,几行命令就能搞定,而windows下其实严格来讲不能说是安装。我们解压我们下载的压缩包文件到某一个目录下面即可。CRF同...原创 2018-10-16 18:23:53 · 5381 阅读 · 6 评论 -
word2vec训练中文词向量
词向量作为文本的基本结构——词的模型。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,这里简单介绍词向量的训练,主要是记录学习模型和词向量的保存及一些函数用法。一、搜狐新闻1. 中文语料库准备本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php下载下来的...原创 2018-09-26 16:27:45 · 81623 阅读 · 14 评论 -
基于Gensim的Word2Vec的应用
一:word2vec的基础简介可以参考: https://blog.csdn.net/lilong117194/article/details/82018008 https://blog.csdn.net/lilong117194/article/details/82085172 https://blog.csdn.net/lilong117194/article/details/81979...原创 2018-08-30 09:58:35 · 3394 阅读 · 0 评论 -
知识图谱资源-NLP
NLP自然语言处理(Natural Language Processing)是深度学习的主要应用领域之一。 教程 http://cs224d.stanford.edu/ CS224d: Deep Learning for Natural Language Proce...转载 2018-08-29 13:49:07 · 2074 阅读 · 0 评论 -
情感分析之电影评论分析-基于Tensorflow的LSTM
1. 深度学习在自然语言处理中的应用自然语言处理是教会机器如何去处理或者读懂人类语言的系统,目前比较热门的方向,包括如下几类:对话系统 - 比较著名的案例有:Siri,Alexa 和 Cortana。 情感分析 - 对一段文本进行情感识别。 图文映射 - 用一句话来描述一张图片。 机器翻译 - 将一种语言翻译成另一种语言。 语音识别 - 让电脑识别口语。2. 情感分...原创 2018-08-30 10:25:22 · 23951 阅读 · 14 评论 -
word2vec的通俗理解
在自然语言处理领域中,本文向量化是文本表示的一种重要方式。在当前阶段,对文本的大部分研究都是通过词向量化实现的,但同时也有一部分研究将句子作为文本处理的基本单元,也就是doc2vec和str2vec技术。1. 向量化算法word2vec大家很熟悉的词袋(bag of words)模型是最早的以词语为基本处理单元的文本向量化算法,所谓的词袋模型就是借助于词典把文本转化为一组向量,下面是两个简...原创 2018-08-28 23:40:17 · 21762 阅读 · 14 评论 -
词嵌入算法
基于神经网络的表示一般称为词向量、词嵌入(word embdding)或分布式表示。神经网络的词向量和其他分布式类似,都基于分布式表达方式,核心依然是上下文的表示以及上下文与目标词之间的关系映射。主要通过神经网络对上下文,以及上下文和目标词之间的关系进行建模,之所以神经网络可以进行建模,主要是由于神经网络的空间非常大,所以这种方法可以表达复杂的上下文关系。1. 词向量nlp中最常见的第...原创 2018-08-27 01:06:42 · 10941 阅读 · 0 评论 -
神经网路语言模型(NNLM)的理解
用神经网络来训练语言模型的思想最早由百度 IDL (深度学习研究院)的徐伟提出[1],NNLM(Nerual Network Language Model)是这方面的一个经典模型,具体内容可参考 Bengio 2003年发表在JMLR上的论文。与传统的估算p(wt|wt−(n−1),...wt−1)p(wt|wt−(n−1),...wt−1)p(w_t|w_{t-(n-1)},...w_{t-...原创 2018-08-24 17:53:36 · 23969 阅读 · 6 评论 -
通俗讲解自底向上构建知识图谱全过程
知识图谱的基础介绍,供学习参考。 转载自:https://mp.weixin.qq.com/s/7cBbtqvPQUVrLZUNDx8XDQ下面开始正文: 知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开...转载 2018-08-15 11:13:22 · 3002 阅读 · 0 评论 -
命名实体识别——日期识别
命名实体识别其目的是识别语料中的人名、地名、组织结构名等命名实体,由于这些命名实体在不断地更新,很难在词典中全部列出,所以就对这些词的识别在词汇形态处理任务中单独处理,也就是NER技术。而命名实体识别效果的评判标准主要是看实体的边界是否划分正确,以及实体的类型是否标注正确,对于英文来说命名实体的边界识别相对简单,因为一般都有明显的形式标志,而对于实体类型的确定相对较难。在中文中相较于实体类...原创 2018-07-26 15:36:32 · 9243 阅读 · 0 评论 -
jieba词性标注
词性标注这里首先了解下词性标注: 中文的词性标注一般存在很多不固定性,比如同音同形的词在不同的场景下,其表示的语法属性截然不用,这就为词性标注带来了很大的困难。但是从另外一个方面看,整体上来说大多数的词语,尤其是实词,一般只有一个到两个词性,而其中一个词性相对于另一个是高频的,这时如果默认将高频词性作为词性选择进行标注,也能有很高的准确率。这时对于大部分的场景来说,还是能满足基本的准确度要求...原创 2018-07-26 11:18:19 · 4826 阅读 · 0 评论 -
windows10下Anaconda spyder安装CRF++的python接口
在基于条件随机场的命名实体识别时,用到CRF++,而且提供了python接口,虽然说可以用命令行执行,但接口配置我觉得还是很有必要的。准备必要的安装包: CRF++ -0.58(windows版) vs_community_ENU.exe 可以在网上下载相应的安装包。我这里的环境是: windows 10(64位) Anaconda3(64位)——python 3.6下载CR...原创 2018-07-25 16:37:33 · 4721 阅读 · 14 评论 -
jieba分词实例
jieba社区活跃,它其实不只有分词这一个功能,其还是一个开源框架,提供了很多分词之上的算法,如关键词提取、词性标注等。结巴分词是基于规则和统计的混合分词方法。对于未登陆词,jieba使用了基于汉字成词的HMM模型,采用viterbi算法进行推到。jieba的三种分词方法:精确模式:试图将句子最精确的切开,适合文本分析全模式:把句子中所有可以成词的词语扫描出来,速度非常快,但是...原创 2018-07-19 22:58:06 · 4482 阅读 · 0 评论 -
中文分词之正向最大匹配算法
中文分词目前可以分为“规则分词”,“统计分词”,“混合分词(规则+统计)”这三个主要流派。这次介绍下基于规则的分词,其是一种机械的分词方法,主要通过维护词典,在切分语句时,将语句的每个字符串与词表中的词逐一进行匹配,找到则切分,否则不予切分。正向最大匹配算法:这里需要知道两点,一个是分词词典(也即是已经分词过的词典),另一个是需要被分词的文档。假定分词词典中的最长词有iii个汉子字符串,则用被...原创 2018-07-19 12:46:10 · 11401 阅读 · 1 评论 -
基于LSTM的研报分类系统
基于东方财富宏观研究的研报分类系统东方财富宏观研究网址:http://data.eastmoney.com/report/hgyj.html一、该系统是由以下几步组成:(1)爬虫(2)文本处理(3)word2vec词向量训练(4)Lstm模型训练(5)基于模型的新文本预测二、运行该系统需要安装的包(1)爬虫中需要安装:selenium和PhantomJS,本人的安装环境是mac下...原创 2018-11-13 23:26:48 · 1592 阅读 · 0 评论