语言模型n-grams：n元(语)法——python代码实现

原创已于 2025-04-10 21:33:26 修改 · 587 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#nlp #python #自然语言处理 #中文分词 #人工智能 #算法

于 2024-09-11 15:55:06 首次发布

NLP自然语言处理理论与算法专栏收录该内容

36 篇文章

订阅专栏

1.回归上篇博客代码：

2.本篇博客的代码：

#知识点1：

马尔可夫模型-->n-grams

马尔可夫假设：一个词的出现只与前面N个词相关, n阶马尔科夫链(Markov chain of order n)

n元语法的缺点: 1. 参数空间过大 2. 数据会比较稀疏

齐夫定律: 在一个自然语言语料库中, 某个单词出现的频率与其在频率表中名词的常数次幂成反比. 即：极少数的单词会被经常使用到, 绝大多数单词很少被提及.

#注意：本篇博客基于上一篇个人博客《英文文本预处理的常见流程——Python代码实现》中的函数封装代码，如下：

1.回归上篇博客代码：

#python自带的两个包
import collections    #该库提供了一些集合对象的实现,包括Counter、deque、defaultdict等
import re  #正则表达式的模块库


#读取本地文本数据
def read_time_machine():
    with open('./article.txt', 'r') as f:  #'r'只读
        lines = f.readlines()  #读取每一行数据
    #re.sub参数：pattern表示正则表达式； repl：用什么替代；string：对什么文本操作， +加号表示重复
    return [re.sub('[^A-Za-z]+', ' ',line).strip().lower() for line in lines] #不符合正则的用空格表示， strip()：去掉空格， lower（）：把大写字母变成小写


#词元化
def tokenize(lines, token='word'):   #token='word'相当于设置判断标志
    """将文本行拆分成单词或者字符词元
        lines:需要传入的数据
        token = 'word' 或者 token = 'char'两种形式
    """
    if token == 'word':
        return [line.split() for line in lines]
    elif token == 'char':
        return [list(line) for line in lines] #list(line)将一整行英文文本的字符串放入列表中，会每个字母单独成为一个列表元素
    else:
        print('错误：未知词元类型：' + token)


#提取词频并排序
def count_corpus(tokens):
    #判断tokens是否为空 或者 tokens里面的第一个元素是否为一个列表
    if len(tokens) == 0 or isinstance(tokens[0], list):
        #把词元列表展平使用词元填充的一个列表
        tokens = [token  for line in tokens  for token in line]
        #上一句代码 相当于 下面四句代码
#         temp = []
#         for line in tokens:
#             for token in line:
#                 temp.append(token)
    return collections.Counter(tokens)  #统计一维数据的文本词频


# 构建词汇表
class Vocab:
    """文本词汇表"""
    def __init__(self, tokens=None, min_freq=0, reserved_token=None):
        if tokens is None:
            tokens = []
        if reserved_token is None:
            reserved_token = []
            
        counter = count_corpus(tokens)
        # 按照出现频率进行排序
        self.token_freqs = sorted(counter.items(), key=lambda x: x[1], reverse=True)
        # 未知词元索引为0
        self.unk, uniq_tokens = 0, ['<unk>'] + reserved_token
        uniq_tokens += [token for token, freq in self.token_freqs if freq >= min_freq and token not in uniq_tokens]
        
        self.idx_to_token, self.token_to_idx = [], dict()
        for token in uniq_tokens:
            self.idx_to_token.append(token)
            self.token_to_idx[token] = len(self.idx_to_token) - 1
            
    def __len__(self):
        return len(self.idx_to_token)
    
    def __getitem__(self, tokens):
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]
    
    def to_tokens(self, indices):
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]


def load_corpus_time_machine(max_tokens=-1):
    """返回时光机器文本数据集中的词元索引和词汇表"""
    lines = read_time_machine()
    tokens = tokenize(lines, 'char')
    vocab = Vocab(tokens)
    #把所有文本展平导一个列表中
    corpus = [vocab[token] for line in tokens  for token in line]
    if max_tokens > 0:
        corpus = corpus[:max_tokens]
    return corpus, vocab

2.本篇博客的代码：

tokens = tokenize(read_time_machine())   # tokens是二维的, 每一行是一个列表.

#把所有文本拼接在一起,获取语料库（文本中没有降重的所有词汇）
corpus = [token  for line in tokens  for token in line]
#词汇表
vocab = Vocab(corpus)

# 取出所有的词频
freqs = [freq for token, freq in vocab.token_freqs]
freqs

from d2l import torch as d2l

d2l.plot(freqs, xlabel='tokens:x',ylabel='frequency:n(x)', xscale='log', yscale='log')
#xscale='log', yscale='log'将y轴和x轴的比例设置为对数比例。例如以10的指数增长。这种设置特别适用于聚合散乱的数据，使其在图表上更均匀分布。通过使用对数比例，可以将原本非线性的数据转换为线性的表示方式，从而更容易观察数据之间的关系和趋势。

#获取二元语法的语料库
bigram_tokens = [pair for pair in zip(corpus[:-1], corpus[1:])]

#获取二元语法的词汇表
bigram_vocab = Vocab(bigram_tokens)

bigram_vocab.token_freqs[:10]  #获取前十个二元语法的词汇表

#三元语法的语料库
trigram_tokens = [triple  for triple in zip(corpus[:-2], corpus[1:-1], corpus[2:])]

#三元语法的词汇表
trigram_vocab = Vocab(trigram_tokens)

trigram_vocab.token_freqs[:10]   #获取前10个三元语法的词汇表

#对比一元，二元。三元语法
bigram_freqs = [freq  for token,freq in bigram_vocab.token_freqs]
trigram_freqs = [freq  for token,freq in trigram_vocab.token_freqs]

d2l.plot([freqs, bigram_freqs, trigram_freqs], xlabel='token:x', ylabel='frequency:n(x)', xscale='log', yscale='log',
        legend=['unigram', 'bigram', 'trigram'])