在计算机中表示一个词的问题:
- 不能分辨细节差别;
- 需要大量人为干预;
- 偏向主观;
- 无法发现新词;
- 难以精确计算词之间的相似度
词表示 发展:
离散表示
- 词向量表示One-hot:一个词可以表示为One-Hot 向量(一维为1 其余维为0的向量),也叫局部表示。离散表示的缺点是词与词之间没有距离的概念,与事实不符
- 文本表示Bag of words 词袋模型: 文本可以看作是一句话,或者几句话组成的短文本。文本表示就是将一段短文本表示为向量。词袋模型是一种非常经典的文本表示。顾名思义,它就是将字符串视为一个 “装满字符(词)的袋子” ,袋子里的 词语是随便摆放的。而两个词袋子的相似程度就以它们重合的词及其相关分布进行判断。
词袋模型的优点:
简单,方便,快捷; 在语料充足的情况下,对于简单的自然语言处理任务效果不错。如文本分类。
词袋模型的缺点
-
其准确率往往比较低。凡是出现在文本中的词一视同仁,不能体现不同词在一句话中重要性的不同。
-
无法关注词语之间的顺序关系,这是词袋模型最大的缺点。如“武松打老虎”跟“老虎打武松”在词袋模型中被认为是一样的。
词袋模型与one-hot的关系
词袋模型用于文本表示,将文本表示为向量。如果对文本进行分词,如果文本中的每个词用one-hot形式表示,然后把每个词的one-hot向量相加