- 博客(2)
- 收藏
- 关注
转载 文本向量化笔记
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将文章或者句子作为文本处理的基本单元,于是产生了doc2vec 和str2vec 技术。文本向量化方法:以词语为基本处理单元的word2vec 技术doc2vecstr
2021-09-23 10:30:41 1299
原创 文本向量化浅析
在解释文本向量如何向量化之前,先要明白文本为什么要向量化?如果你向计算机中输入“明天我要出去玩”,计算机不知道你要做什么,因为他识别不了这样的语言,但是你和计算机说0101,他就能明白你的意思。所以,非结构化数据,像语音、视频、文字等等,在输入到人工智能算法之前,都要先转化为能代表他们的特征或矩阵。 就像26个英文字母是没有意义的,但是每个中文词汇都有一个对应的、由他们组成的英文单词,如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a ap...
2021-09-23 10:26:51 1558
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人