自然语言处理
飞鸟2010
这个作者很懒,什么都没留下…
展开
-
自然语言处理入门(1)——文本相似度计算
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。文本相似度常用的计算方法有TF-IDF、LSI、LDA等。本文分别用上述3种算法来对同一批文本计算相似度,并分析比较不同算法的优劣之处。原创 2017-05-27 23:38:17 · 7766 阅读 · 0 评论 -
命名实体识别(1)——CRF
本文主要介绍一些命名实体识别(Name Entity Recognition,NER)相关的基本概念、发展历程和最新的研究进展,并着重介绍基于CRF的命名实体识别原理及实现。后续也会以BiLSTM-CRF、BERT-BiLSTM-CRF为例进行展开。1.命名实体识别介绍命名实体识别(Name Entity Recognition,NER),又称"专名识别",是指识别文本中含有特定意义的实体...原创 2019-06-09 22:38:44 · 1788 阅读 · 1 评论 -
自然语言处理入门(3)——Word2Vec
Word2Vec是2013年Google开源的一款用于词向量计算的工具,由于其可以在百万数量级的词典和上亿的数据集上进行高效地训练,且该工具得到的词向量,可以很好地度量词与词之间的相似性,在学术界和工业界都得到了广泛的应用。word2vec采用的是n元语法模型(n-gram model),即假设一个词只与周围n个词有关,而与文本中的其他词无关。其训练词向量有两种方式:CBOW和Skip-gram。...原创 2017-06-19 21:24:07 · 2164 阅读 · 0 评论 -
自然语言处理入门(8)——TextRank
TextRank是自然语言处理领域一种比较常见的关键词提取算法,可用于提取关键词、短语和自动生成文本摘要。TextRank是由PageRank算法改进过来的,所以有大量借鉴PageRank的思想,其处理文本数据的过程主要包括以下几个步骤:(1)首先,将原文本拆分为句子,在每个句子中过滤掉停用词(可以不选),并只保留指定词性的单词,由此可以得到句子和单词的集合。(2)每个单词作为PageRank中的...原创 2018-02-09 16:27:16 · 8209 阅读 · 2 评论 -
自然语言处理入门(4)——中文分词原理及分词工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的原创 2017-06-30 10:46:22 · 97694 阅读 · 0 评论 -
自然语言处理入门(7)——基于TF-IDF的文本自动打标
1. TF-IDF简介TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF倾向于过滤掉常见的词语,保留重要的词语。TF-IDF加权的各种形式常被搜寻引擎应用,作为文原创 2017-08-31 21:22:21 · 1915 阅读 · 0 评论 -
自然语言处理入门(6)——基于LDA的文章主题生成
1. LDA概述LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别大规模文原创 2017-08-27 21:56:06 · 6026 阅读 · 0 评论 -
自然语言处理入门(5)——基于WordArt的AGM手机评论词频分析
本文首先从速卖通(Aliexpress)获取到AGM X1手机(战狼2中吴京用的手机)的评论数据,然后利用一个很好的公开词频分析工具WordArt(https://wordart.com/create)来对评论数据进行分析。1. 获取评论数据(1) 评论数据获取python代码如下所示:# -*- coding: utf-8 -*-"""Created on Tue Aug 15 16:44:1原创 2017-08-15 17:32:51 · 1961 阅读 · 1 评论 -
自然语言处理入门(2)——中文文本处理利器snownlp
SnowNLP是一个python写的类库,可以方便的处理中文文本内容。如中文分词、词性标注、情感分析、文本分类、提取文本关键词、文本相似度计算等。snownlp示例如下所示:# -*- coding: utf-8 -*-"""Created on Wed May 31 22:28:23 2017@author: Administrator"""from snownlp import SnowN原创 2017-05-31 22:01:08 · 7147 阅读 · 0 评论