![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
封狼居士
此人不懒,什么都写了。
展开
-
NLP第二天002
3.统计分词 1思想: 把每个词看作是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这个相连的字很可能就是一个词,利用字与字相邻出现的频率来反映成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某个临界值,便认为是构成了一个词语。 基于统计分词的操作: 1)建立统计语言模型 2)对句子进行单词划分,对划分结果进行概率计算,获得概率最大的分词方式。(方法有:隐含马尔可夫(HMM),条件随机场(CRF)) 2模型 ...原创 2020-11-21 17:20:09 · 120 阅读 · 0 评论 -
NLP第二天001
1.逆向最大匹配法(RMM) 基本原理和MM法相同,不同的是分词切分的方向和MM法相反。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(其中i为字典中最长词数)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典。 优势:逆向最大匹配法比正向最大匹配法的误差要小。(原因在于:汉语中偏正结构比较多) class RMM(object): def __init__(self): self.window_size=3 def cut(s原创 2020-11-16 17:24:33 · 182 阅读 · 2 评论 -
NLP第一天3
中文分词(*) (1)概念: 在处理中文文本的时候,需要进行分词处理,将句子转化为词的表示。这个切词的过程就是中文分词,它是通过计算机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇,其主要困难在于分词歧义,未登录词、分词粒度粗细。 (2)中文分词方法 (1)规则分词 (2)统计分词 (3)混合分词 1、规则分词 简单高效、但对新词很难处理;基于规则分词是一种机械分词方法,主要通过维护字典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不切分。按照匹配切分的方式,主要有最原创 2020-11-13 17:09:02 · 100 阅读 · 0 评论 -
NLP第一天2
(一)使用正则表达式 正则表达式是一种定义了搜索模式的特征序列,主要用于字符串的模式匹配,或者是字符是匹配,其作用之一是将文档内容从非结构化转化为结构化以便后续的文本挖掘;另一个作用是去噪(在处理大量文本片段的时候,有很多文字信息与最终输出的文本无关,这些无关的片段称为噪声(如语气助词、标点符号等))正则表达式是处理NLP最基本的手段之一。 ...原创 2020-11-13 15:59:47 · 70 阅读 · 0 评论 -
NLP第一天
1、NLP知识构成 (1)分词 分词常用的手段是基于字典的最长串匹配,基本可以解决85%的问题,但是歧义词很难。 (2)词性标注 词性一般是指动词、名词、形容词等。标注的目的是表证词的一种隐藏状态,隐藏状态的转移就构成了状态转移序列。 (3)命名实体识别(NER) 从文本中识别具有特定类别的实体 (4)句法分析 句法分析的目的是解析句子中各个成分的依赖关系,往往最终的生成结果是一棵句法分析树。可以解决传统词袋不考虑上下文的问题。 (5)指代消解 (6)情感识别 本质上是分类问题(分成正面、负面(或者分成正面原创 2020-11-13 15:46:05 · 104 阅读 · 0 评论