目录
#知识点1:
马尔可夫模型-->n-grams
马尔可夫假设:一个词的出现只与前面N个词相关, n阶马尔科夫链(Markov chain of order n)
n元语法的缺点: 1. 参数空间过大 2. 数据会比较稀疏
齐夫定律: 在一个自然语言语料库中, 某个单词出现的频率与其在频率表中名词的常数次幂成反比. 即:极少数的单词会被经常使用到, 绝大多数单词很少被提及.
#注意:本篇博客基于上一篇个人博客《中文文本预处理的常见流程——Python代码实现》中的函数封装代码,如下:
1.回归上篇博客代码:
#python自带的两个包
import collections #该库提供了一些集合对象的实现,包括Counter、deque、defaultdict等
import re #正则表达式的模块库
#读取本地文本数据
def read_time_machine():
with open('./article.txt', 'r') as f: #'r'只读
lines = f.readlines() #读取每一行数据
#re.sub参数:pattern表示正则表达式; repl:用什么替代;string:对什么文本操作, +加号表示重复
return [re.sub('[^A-Za-z]+', ' ',line).strip().lower() for line in lines] #不符合正则的用空格表示, strip():去掉空格, lower():把大写字母变成小写
#词元化
def tokenize(lines, token='word'): #token='word'相当于设置判断标志
"""将文本行拆分成单词或者字符词元
lines:需要传入的数据
token = 'word' 或者 token = 'char'两种形式
"""
if token == 'word':
return [line.split() for line in lines]
elif token == 'char':
return [list(line) for line in lines] #list(line)将一整行英文文本的字符串放入列表中,会每个字母单独成为一个列表元素
else:
print('错误:未知词元类型:' + token)
#提取词频并排序
def count_corpus(tokens):
#判断tokens是否为空 或者 tokens里面的第一个元素是否为一个列表
if len(tokens) == 0 or isinstance(tokens[0], list):
#把词元列表展平使用词元填充的一个列表
tokens = [token for line in tokens for token in line]
#上一句代码 相当于 下面四句代码
# temp = []
# for line in tokens:
# for token in line:
# temp.append(token)
return collections.Counter(tokens) #统计一维数据的文本词频
# 构建词汇表
class Vocab:
"""文本词汇表"""
def __init__(self, tokens=None, min_freq=0, reserved_token=None):
if tokens is None:
tokens = []
if reserved_token is None:
reserved_token = []
counter = count_corpus(tokens)
# 按照出现频率进行排序
self.token_freqs = sorted(counter.items(), key=lambda x: x[1], reverse=True)
# 未知词元索引为0
self.unk, uniq_tokens = 0, ['<unk>'] + reserved_token
uniq_tokens += [token for token, freq in self.token_freqs if freq >= min_freq and token not in uniq_tokens]
self.idx_to_token, self.token_to_idx = [], dict()
for token in uniq_tokens:
self.idx_to_token.append(token)
self.token_to_idx[token] = len(self.idx_to_token) - 1
def __len__(self):
return len(self.idx_to_token)
def __getitem__(self, tokens):
if not isinstance(tokens, (list, tuple)):
return self.token_to_idx.get(tokens, self.unk)
return [self.__getitem__(token) for token in tokens]
def to_tokens(self, indices):
if not isinstance(indices, (list, tuple)):
return self.idx_to_token[indices]
return [self.idx_to_token[index] for index in indices]
def load_corpus_time_machine(max_tokens=-1):
"""返回时光机器文本数据集中的词元索引和词汇表"""
lines = read_time_machine()
tokens = tokenize(lines, 'char')
vocab = Vocab(tokens)
#把所有文本展平导一个列表中
corpus = [vocab[token] for line in tokens for token in line]
if max_tokens > 0:
corpus = corpus[:max_tokens]
return corpus, vocab
2.本篇博客的代码:
tokens = tokenize(read_time_machine()) # tokens是二维的, 每一行是一个列表.
#把所有文本拼接在一起,获取语料库(文本中没有降重的所有词汇)
corpus = [token for line in tokens for token in line]
#词汇表
vocab = Vocab(corpus)
# 取出所有的词频
freqs = [freq for token, freq in vocab.token_freqs]
freqs
from d2l import torch as d2l
d2l.plot(freqs, xlabel='tokens:x',ylabel='frequency:n(x)', xscale='log', yscale='log')
#xscale='log', yscale='log'将y轴和x轴的比例设置为对数比例。例如以10的指数增长。这种设置特别适用于聚合散乱的数据,使其在图表上更均匀分布。通过使用对数比例,可以将原本非线性的数据转换为线性的表示方式,从而更容易观察数据之间的关系和趋势。
#获取二元语法的语料库
bigram_tokens = [pair for pair in zip(corpus[:-1], corpus[1:])]
#获取二元语法的词汇表
bigram_vocab = Vocab(bigram_tokens)
bigram_vocab.token_freqs[:10] #获取前十个二元语法的词汇表
#三元语法的语料库
trigram_tokens = [triple for triple in zip(corpus[:-2], corpus[1:-1], corpus[2:])]
#三元语法的词汇表
trigram_vocab = Vocab(trigram_tokens)
trigram_vocab.token_freqs[:10] #获取前10个三元语法的词汇表
#对比一元,二元。三元语法
bigram_freqs = [freq for token,freq in bigram_vocab.token_freqs]
trigram_freqs = [freq for token,freq in trigram_vocab.token_freqs]
d2l.plot([freqs, bigram_freqs, trigram_freqs], xlabel='token:x', ylabel='frequency:n(x)', xscale='log', yscale='log',
legend=['unigram', 'bigram', 'trigram'])