【NLP】特征提取

最新推荐文章于 2024-06-28 14:15:13 发布

Loewi大湿

最新推荐文章于 2024-06-28 14:15:13 发布

阅读量2.6k

点赞数

分类专栏： self_learning

本文链接：https://blog.csdn.net/weixin_42317507/article/details/89220966

版权

本文介绍自然语言处理中的特征提取，包括分词方法如正向最大、逆向最大和双向最大匹配法，以及词频统计。讨论了unigram、bigram和trigram在语言模型中的应用，并提到了文本矩阵化的步骤，如使用词袋模型进行词级矩阵化，涉及分词、去停用词和文档向量化。

摘要由CSDN通过智能技术生成

【任务3 - 特征提取】

基本文本处理技能
1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；
1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）
2.1 语言模型中unigram、bigram、trigram的概念；
2.2 unigram、bigram频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）
文本矩阵化：要求采用词袋模型且是词级别的矩阵化
步骤有：
3.1 分词（可采用结巴分词来进行分词操作，其他库也可以）；
3.2 去停用词；构造词表。
3.3 每篇文档的向量化。

正向最大(Maximum Matching, MM):
算法思想：
从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。我们来举个例子：

待分词文本： content[]={“中”，“华”，“民”，“族”，“从”，“此”，“站”，“起”，“来”，“了”，"。"}

词表： dict[]={“中华”， “中华民族” ， “从此”，“站起来”}

(1) 从content[1]开始，当扫描到content[2]的时候，发现"中华"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3]，发现"中华民"并不是dict[]中的词。但是我们还不能确定是否前面找到的"中华"已经是最大的词了。因为"中华民"是dict[2]的前缀。

(3) 扫描content[4]，发现"中华民族"是dict[]中的词。继续扫描下去：

(4) 当扫描content[5]的时候，发现"中华民族从"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——“中华民族”。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。

sudo-code

result = []
right_seq = input_seq
while True:
    select_seq,left_seq = get_select_seq(right_seq)
    seg_word,seg_word_right = selectMaxLenInDict(select_seq)
    result.append(seg_seq)
    right_seq = seg_word_right+left_seq
    if right_seq=="":
        break

def selectMaxLenInDict(_seq):
    for idx in range(len(select_seq),

最低0.47元/天解锁文章

Loewi大湿

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【NLP】特征提取

【任务3 - 特征提取】基本文本处理技能1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）2.1 语言模型中unigram、bigram、trigram的概念；2.2 unigram、bigram频率统计；（可以使用Python中的collectio...
复制链接

扫一扫

专栏目录