大白熊爱吃大白菜-CSDN博客

原创基于机器学习的文本分类

在应用机器学习方法的时候，通常，模型接受的输入是数值向量。但是自然语言处理中原始数据是文本，或者说是字符串。所以，在做自然语言处理的一些问题时，首先需要将输入的文本转换成向量。最基本的方法有：word count和TF-IDF，这两种方法是最基本的，但有很大的缺陷。word count和TF-IDF仅仅只是考虑了某个词在文本中出现的次数或者频率，没有考虑词的上下文结构信息。...

2021-05-18 12:44:06 2121

词袋模型是将文本转换成向量的一种方式，且容易实现，本文将详细地阐述词袋模型以及如何实现词袋模型。## 文本存在的问题在对文本进行建模的时候存在一个问题，就是“混乱”，因为像机器学习算法通常更喜欢固定长度的输入、输出，但是文本是不定长的。机器学习算法不能直接处理纯文本，要使用文本的话，就必须把它转换成数值，尤其是数值向量。这个就叫做特征提取或者特征编码。而文本数据的特征提取，其中一种简单且流行的方法就是词袋模型。## 什么是词袋？词袋是一篇文档中单词出现的文本表示，它包含两个信息：1. 一

2021-05-03 00:19:27 18139 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

helinnlp的博客

原创基于机器学习的文本分类

原创词袋模型（Bag of Words Model）

空空如也

空空如也

原创 基于机器学习的文本分类

原创 词袋模型（Bag of Words Model）

空空如也

空空如也

原创基于机器学习的文本分类

原创词袋模型（Bag of Words Model）