NLP->Test2

最新推荐文章于 2020-12-02 13:41:22 发布

a1103688841

最新推荐文章于 2020-12-02 13:41:22 发布

阅读量211

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/a1103688841/article/details/98985350

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. 基本文本处理技能

1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；

词典正向最大匹配就是将一段字符串进行分隔，其中分隔的长度有限制，然后将分隔的子字符串与字典中的词进行匹配，如果匹配成功则进行下一轮匹配，直到所有字符串处理完毕，否则将子字符串从末尾去除一个字，再进行匹配，如此反复。逆向匹配与此类似

1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
Created on 4/21/16
@author: Jiezhi.G@gmail.com
Blog: jiezhi.github.io
Reference: https://docs.python.org/2/library/collections.html#counter-objects
"""
import re
from collections import Counter
 
 
file_path = '/Users/jiezhi/Downloads/Scenes from a Courtesan_s Life.txt'
 
words = re.findall(r'\w+', open(file_path).read().lower())
 
print Counter(words).most_common(100)

2. 概念

2.1 语言模型中unigram、bigram、trigram的概念；

N-gram是计算机语言学和概率论范畴内的概念，是指给定的一段文本或语音中N个项目（item）的序列。项目（item）可以是音节、字母、单词或碱基对。通常N-grams取自文本或语料库。

N=1时称为unigram，N=2称为bigram，N=3称为trigram，以此类推。

2.2 unigram、bigram频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）

3. 文本矩阵化：要求采用词袋模型且是词级别的矩阵化

步骤有：

3.1 分词（可采用结巴分词来进行分词操作，其他库也可以）；

3.2 去停用词；构造词表。

3.3 每篇文档的向量化。

a1103688841

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP->Test2

1. 基本文本处理技能1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；词典正向最大匹配就是将一段字符串进行分隔，其中分隔的长度有限制，然后将分隔的子字符串与字典中的词进行匹配，如果匹配成功则进行下一轮匹配，直到所有字符串处理完毕，否则将子字符串从末尾去除一个字，再进行匹配，如此反复。逆向匹配与此类似1.2 词、字符频率统计；（可以使用Python中的co...
复制链接

扫一扫