- 博客(2)
- 收藏
- 关注
原创 基于机器学习的文本分类
在应用机器学习方法的时候,通常,模型接受的输入是数值向量。但是自然语言处理中原始数据是文本,或者说是字符串。所以,在做自然语言处理的一些问题时,首先需要将输入的文本转换成向量。最基本的方法有:word count和TF-IDF,这两种方法是最基本的,但有很大的缺陷。word count和TF-IDF仅仅只是考虑了某个词在文本中出现的次数或者频率,没有考虑词的上下文结构信息。...
2021-05-18 12:44:06 2121
原创 词袋模型(Bag of Words Model)
词袋模型是将文本转换成向量的一种方式,且容易实现,本文将详细地阐述词袋模型以及如何实现词袋模型。## 文本存在的问题在对文本进行建模的时候存在一个问题,就是“混乱”,因为像机器学习算法通常更喜欢固定长度的输入、输出,但是文本是不定长的。机器学习算法不能直接处理纯文本,要使用文本的话,就必须把它转换成数值,尤其是数值向量。这个就叫做特征提取或者特征编码。而文本数据的特征提取,其中一种简单且流行的方法就是词袋模型。## 什么是词袋?词袋是一篇文档中单词出现的文本表示,它包含两个信息:1. 一
2021-05-03 00:19:27 18139 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人