NLP task_2

最新推荐文章于 2019-10-25 21:01:34 发布

lowy3

最新推荐文章于 2019-10-25 21:01:34 发布

阅读量230

点赞数

分类专栏： NLP NLP基础文章标签： NLP

本文链接：https://blog.csdn.net/weixin_41761677/article/details/98870710

版权

本文详细介绍了中文文本处理中的分词概念和方法，包括正向、逆向最大匹配法及双向最大匹配法。同时讲解了语言模型中的unigram、bigram和trigram的概念，以及jieba分词的使用，包括全模式、精确模式和搜索引擎模式。此外，还提到了新词识别、去除停用词、构建词表和文档向量化等NLP基础操作。

摘要由CSDN通过智能技术生成

基本文本处理能力

1. 文本分词概念

文本分词，即将长文本分成各种词，以便我们进一步的统计并分析。分词需要遵循几个基本法则：
1、颗粒度越大越好：用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切，如：“公安局长”可以分为“公安局长”、“公安局长”、“公安局长”都算对，但是要用于语义分析，则“公安局长”的分词结果最好（当然前提是所使用的词典中有这个词）
2、切分结果中非词典词越少越好，单字字典词数越少越好，这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的是可以独立运用的单字，如“的”、“了”、“和”、“你”、“我”、“他”。例如：“技术和服务”，可以分为“技术和服务”以及“技术和服务”，但“务”字无法独立成词（即词典中没有），但“和”字可以单独成词（词典中要包含），因此“技术和服务”有1个非词典词，而“技术和服务”有0个非词典词，因此选用后者。
3、总体词数越少越好，在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。

2.分词方法

正向最大匹配法

正向即从前往后取词，从7->1，每次减一个字，直到词典命中或剩下1个单字。
第1次：“我们在野生动物”，扫描7字词典，无
第2次：“我们在野生动”，扫描6字词典，无
。。。。
第6次：“我们”，扫描2字词典，有
扫描中止，输出第1个词为“我们”，去除第1个词后开始第2轮扫描，即：
第2轮扫描：
第1次：“在野生动物园玩”，扫描7字词典，无
第2次：“在野生动物园”，扫描6字词典，无
。。。。
第6次：“在野”，扫描2字词典，有
扫描中止，输出第2个词为“在野”，去除第2个词后开始第3轮扫描，即：
第3轮扫描：
第1次：“生动物园玩”，扫描5字词典，无
第2次：“生动物园”，扫描4字词典，无
第3次：“生动物”，扫描3字词典，无
第4次：“生动”，扫描2字词典，有
扫描中止，输出第3个词为“生动”，第4轮扫描，即：
第4轮扫描：
第1次：“物园玩”，扫描3字词典，无
第2次：“物园”，扫描2字词典，无
第3次：“物”，扫描1字词典，无
扫描中止，输出第4个词为“物”，非字典词数加1，开始第5轮扫描，即：
第5轮扫描：
第1次：“园玩”，扫描2字词典，无
第2次：“园”，扫描1字词典，有
扫描中止，输出第5个词为“园”，单字字典词数加1，开始第6轮扫描，即：
第6轮扫描：
第1次：“玩”，扫描1字字典词，有
扫描中止，输出第6个词为“玩”，单字字典词数加1，整体扫描结束。

逆向最大匹配法

逆向即从后往前取词，其他逻辑和正向相同。即：
第1轮扫描：“在野生动物园玩”
第1次：“在野生动物园玩”，扫描7字词典，无
第2次：“野生动物园玩”，扫描6字词典，无
。。。。
第7次：“玩”，扫描1字词典，有
扫描中止，输出“玩”，单字字典词加1，开始第2轮扫描
第2轮扫描：“们在野生动物园”
第1次：“们在野生动物园”，扫描7字词典，无
第2次：“在野生动物园”，扫描6字词典，无
第3次：“野生动物园”，扫描5字词典，有
扫描中止，输出“野生动物园”，开始第3轮扫描
第3轮扫描：“我们在”
第1次：“我们在”，扫描3字词典，无
第2次：“们在”，扫描2字词典，无
第3次：“在”，扫描1字词典，有
扫描中止，输出“在”，单字字典词加1，开始第4轮扫描
第4轮扫描：“我们”
第1次：“我们”，扫描2字词典，有
扫描中止，输出“我们”，整体扫描结束。

双向最大匹配法

正向最大匹配法和逆向最大匹配法，都有其局限性，我举得例子是正向最大匹配法局限性的例子，逆向也同样存在（如：长春药店，逆向切分为“长/春药店”），因此有人又提出了双向最大匹配法，双向最大匹配法。即，两种算法都切一遍，然后根据大颗粒度词越多越好，非词典词和单字词越少越好的原则，选取其中一种分词结果输出。
如：“我们在野生动物园玩”
正向最大匹配法，最终切分结果为：“我们/在野/生动/物/园/玩”，其中，两字词3个，单字字典词为2，非词典词为1。
逆向最大匹配法，最终切分结果为：“我们/在/野生动物园/玩”，其中，五字词1个，两字词1个，单字字典词为2，非词典词为0。
非字典词：正向(1)>逆向(0)（越少越好）
单字字典词：正向(2)=逆向(2)（越少越好）
总词数：正向(6)>逆向(4)（越少越好）

算法流程：

（1）比较正向最大匹配和逆向最大匹配结果

（2）如果分词数量结果不同，那么取分词数量较少的那个

（3）如果分词数量结果相同

分词结果相同，可以返回任何一个
分词结果不同，返回单字数比较少的那个

3. 语言模型中unigram、bigram、trigram的概念

为了解决自由参数数目过多的问题，引入了马尔科夫假设：随意一个词出现的概率只与它前面出现的有限的n个词有关。基于上述假设的统计语言模型被称为N-gram语言模型。

从模型的效果来看，理论上n的取值越大，效果越好。但随着n取值的增加，效果提升的幅度是在下降的。同时还涉及到一个可靠性和可区别性的问题，参数越多，可区别性越好，但同时单个参数的实例变少从而降低了可靠性。
其中，有关中文分词的一些概念是我们需要掌握的，譬如：

unigram 一元分词，把句子分成一个一个的汉字，每个词之间没有关联关系；
bigram 二元分词，把句子从头到尾每两个字组成一个词语，当前词只和上一个词有关系；
trigram 三元分词，把句子从头到尾每三个字组成一个词语，当前词只和前两个词有关系。

比如：
我觉得可以：
unigram: 我 / 觉 / 得 / 可 / 以
bigram: 我觉 / 觉得 / 得可 / 可以
trigram: 我觉得 / 觉得可 / 得可以

词、字符频率统计

本文通过创建2个文档来说明Counter函数统计词频的方法。首先构造两个文档，里面包含下面几个词。
在这里插入图片描述
然后通过Counter行数来识别文件中的词频：

import os 
from collections import Counter
count_data = []
for f in os.listdir(os.getcwd()):
#只选取我们创建的文件
    if os.path.isfile(f) and f.endswith('.txt') and str(f).strip()[:4] == 'text':
        with open(f, 'r', encoding='utf-8') as fp:
            data = fp.readlines()
            fp.close()
        count_data += [line.strip().lower() for line in data]
cnt = Counter()
for word in count_data:
    cnt[word]+=1
cnt = dict(cnt)
for key, value in cnt