探索大语言模型（LLM）：词袋法（Bag of Words）原理与实现

最新推荐文章于 2025-05-08 20:19:02 发布

雄霸天下459

最新推荐文章于 2025-05-08 20:19:02 发布

阅读量688

点赞数 17

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/2503_90094941/article/details/147794311

版权

引言

词袋法（Bag of Words, BoW）是自然语言处理（NLP）中最基础的文本向量化方法之一。它通过统计文本中词汇的出现频率，将非结构化的文本转换为结构化的数值向量，为后续的机器学习任务（如分类、聚类）提供输入。本文将系统讲解词袋法的原理、数学公式、实现步骤，并通过代码演示其完整流程。

一、词袋法原理

1.1 核心思想

词袋法将文本视为一个“袋子”，忽略语法、词序和句子结构，仅关注词汇的出现与否或出现次数。例如：

文本1："I love NLP"
文本2："NLP is fun"

词袋法会将这两个文本转换为向量，维度由所有唯一词汇构成，每个维度表示对应词汇的权重（如词频或TF-IDF值）。

1.2 实现步骤

构建词汇表：统计所有文本中的唯一词汇，形成词汇表 V=w1,w2,...,wNV={w_1,w_2,...,w_N}V=w1,w2,...,wN，其中 N 为词汇表大小。
文本向量化：对每个文本 d，生成一个 N 维向量vdv_dvd，其中第 i 个元素表示词汇wiw_iwi在 d 中的权重。

二、数学公式

2.1 词频表示

向量vdv_dvd的第 i 个元素为词频（Term Frequency, TF）： vd,i=count(wi∈d)v_{d,i}=count(w_i∈d)vd,i=count(wi∈d)

2.2 TF-IDF加权（可选）

为降低常见词（如“the”、“is”）的权重，可使用TF-IDF：

TF−IDF(wi,d)=TF(wi,d)×log(1+D1+DF(wi))TF-IDF(w_i,d)=TF(w_i ,d)×log( \frac{1+D}{1+DF(w_i)})TF−IDF(wi,d)=TF(wi,d)×log(1+DF(wi)1+D)

其中：

DDD为总文档数
DF(wi)DF(w_i)DF(wi)为包含词汇wiw_iwi的文档数

三、示例表格

假设有以下三个文档：

文档ID	文本内容
D1	"cat sits on mat"
D2	"dog sits on mat"
D3	"cat chases mouse"

3.1 构建词汇表

V={cat,sits,on,mat,dog,chases,mouse}(N=7)V=\{cat, sits, on, mat, dog, chases, mouse\}(N=7)V={cat,sits,on,mat,dog,chases,mouse}(N=7)

3.2 文本向量化（词频）

文档	cat	sits	on	mat	dog	chases	mouse
D1	1	1	1	1	0	0	0
D2	0	1	1	1	1	0	0
D3	1	0	0	0	0	1	1

四、Python代码实现

4.1 基础实现（手动计算）

python

体验AI代码助手

代码解读

复制代码

import numpy as np from sklearn.feature_extraction.text import CountVectorizer # 示例文档 documents = [ "cat sits on mat", "dog sits on mat", "cat chases mouse" ] # 1. 构建词汇表并向量化 vectorizer = CountVectorizer() X = vectorizer.fit_transform(documents) # 2. 输出结果 print("词汇表:", vectorizer.get_feature_names_out()) print("向量矩阵:\n", X.toarray())

4.2 输出结果

python

体验AI代码助手

代码解读

复制代码

词汇表: ['cat' 'chases' 'dog' 'mat' 'mouse' 'on' 'sits'] 向量矩阵: [[1 0 0 1 0 1 1] [0 0 1 1 0 1 1] [1 1 0 0 1 0 0]]

4.3 TF-IDF加权实现

python

体验AI代码助手

代码解读

复制代码

from sklearn.feature_extraction.text import TfidfVectorizer # 使用TF-IDF向量化 tfidf_vectorizer = TfidfVectorizer() X_tfidf = tfidf_vectorizer.fit_transform(documents) print("TF-IDF向量矩阵:\n", X_tfidf.toarray())