自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 文本向量化笔记

文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将文章或者句子作为文本处理的基本单元,于是产生了doc2vec 和str2vec 技术。文本向量化方法:以词语为基本处理单元的word2vec 技术doc2vecstr

2021-09-23 10:30:41 1299

原创 文本向量化浅析

在解释文本向量如何向量化之前,先要明白文本为什么要向量化?如果你向计算机中输入“明天我要出去玩”,计算机不知道你要做什么,因为他识别不了这样的语言,但是你和计算机说0101,他就能明白你的意思。所以,非结构化数据,像语音、视频、文字等等,在输入到人工智能算法之前,都要先转化为能代表他们的特征或矩阵。 就像26个英文字母是没有意义的,但是每个中文词汇都有一个对应的、由他们组成的英文单词,如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a ap...

2021-09-23 10:26:51 1558

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除