词袋模型（Bag of Words）

最新推荐文章于 2024-06-04 16:57:16 发布

人生彷徨何处寻觅

最新推荐文章于 2024-06-04 16:57:16 发布

阅读量3.9k

点赞数 8

分类专栏： AI in 30 days 机器学习百面机器学习文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_37410657/article/details/130541761

版权

AI in 30 days 同时被 3 个专栏收录

26 篇文章 2 订阅

订阅专栏

百面机器学习

8 篇文章 1 订阅

订阅专栏

机器学习

6 篇文章 1 订阅

订阅专栏

词袋模型（Bag of Words，简称BoW）是自然语言处理和信息检索中的一种常用文本表示方法。它将文本表示为一个词的集合，忽略词语的顺序和语法结构，只关注词语的出现频率。

import numpy as np

# 示例文本数据
documents = [
    '我 喜欢 编程，编程 是 一门 有趣的技术',
    '我 喜欢 旅游，旅游 可以 放松 心情',
    '编程 和 旅游 都是 我的 爱好'
]

# 分词
def tokenize(documents):
    tokenized_documents = [doc.split() for doc in documents]
    return tokenized_documents

# 建立词典
def build_vocabulary(tokenized_documents):
    vocabulary = set()
    for doc in tokenized_documents:
        vocabulary.update(doc)
    return sorted(vocabulary)

# 向量化
def vectorize(tokenized_documents, vocabulary):
    vectors = np.zeros((len(tokenized_documents), len(vocabulary)))
    for i, doc in enumerate(tokenized_documents):
        for word in doc:
            vectors[i, vocabulary.index(word)] += 1
    return vectors

# 分词示例
tokenized_documents = tokenize(documents)
print('分词结果：', tokenized_documents)

# 建立词典示例
vocabulary = build_vocabulary(tokenized_documents)
print('词典：', vocabulary)

# 向量化示例
vectors = vectorize(tokenized_documents, vocabulary)
print('向量化结果：\n', vectors)

5. 总结

词袋模型是自然语言处理和信息检索中的一种常用文本表示方法，它将文本表示为一个词的集合，忽略词语的顺序和语法结构，只关注词语的出现频率。本文详细介绍了词袋模型的基本原理、构建步骤、实践方法，并提供了相应的Python代码示例。

人生彷徨何处寻觅

关注

8
点赞
踩
44

收藏

觉得还不错? 一键收藏
0
评论
词袋模型（Bag of Words）

词袋模型是自然语言处理和信息检索中的一种常用文本表示方法，它将文本表示为一个词的集合，忽略词语的顺序和语法结构，只关注词语的出现频率。本文详细介绍了词袋模型的基本原理、构建步骤、实践方法，并提供了相应的Python代码示例。
复制链接

扫一扫