自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 基于机器学习的文本分类

在应用机器学习方法的时候,通常,模型接受的输入是数值向量。但是自然语言处理中原始数据是文本,或者说是字符串。所以,在做自然语言处理的一些问题时,首先需要将输入的文本转换成向量。最基本的方法有:word count和TF-IDF,这两种方法是最基本的,但有很大的缺陷。word count和TF-IDF仅仅只是考虑了某个词在文本中出现的次数或者频率,没有考虑词的上下文结构信息。...

2021-05-18 12:44:06 2096

原创 词袋模型(Bag of Words Model)

词袋模型是将文本转换成向量的一种方式,且容易实现,本文将详细地阐述词袋模型以及如何实现词袋模型。## 文本存在的问题在对文本进行建模的时候存在一个问题,就是“混乱”,因为像机器学习算法通常更喜欢固定长度的输入、输出,但是文本是不定长的。机器学习算法不能直接处理纯文本,要使用文本的话,就必须把它转换成数值,尤其是数值向量。这个就叫做特征提取或者特征编码。而文本数据的特征提取,其中一种简单且流行的方法就是词袋模型。## 什么是词袋?词袋是一篇文档中单词出现的文本表示,它包含两个信息:1. 一

2021-05-03 00:19:27 18010 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除