第6章 文本特征构造
前言
这种从文本数据到具体向量的映射称为“特征提取”和“特征表示”,通过“特征方程”所完成 。
决定正确的特征是使一个机器学习项目取得成功的一部分。深度神经网络减轻了对特征工程的需要,当然,核心特征还是要被定义的。尤其是对语言数据,其以一系列离散的符号形式存在,这个序列需要使用微妙的方法转换成为一个数值向量。
6.1 NLP分类问题中的拓扑结构
词 我们面对的都是词(word),例如"dog","pig"等等。但是因为词极少是无关出现的。对很多词来说,它们的解析依赖于其出现的上下文。
文本