我对文本模型的一些浅解（一）

最新推荐文章于 2022-11-19 22:47:11 发布

SChenGe

最新推荐文章于 2022-11-19 22:47:11 发布

阅读量582

点赞数

分类专栏：自然语言

本文链接：https://blog.csdn.net/SChenGe/article/details/50788908

版权

自然语言专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文本模型体系
现有的主流文本模型两种，文本向量模型和词向量模型。其根本在于如何用一些被切分，可量化的资源去描述一段文字或者一个词（再由词去描述文本）。
文本向量是一种传统的方式，无非是通过分词，取得各个词的权重（权重的计算方法有tf，idf，TextRank，互信息，信息熵），取出其中最重要的TOP-N来标识一篇文章，当N很小时候，那么也就是目前非常流行的博客-标签系统，当N达到一定量级时候，我们可以判定，这些词可以完全准确的标识这篇文章，那么这就是搜索引擎建立索引的思维。
而词向量模型则来自于另一种思维，词的意义不由其本身决定，而是由上下文决定。就像我们在做雅思的阅读题时，常常遇到一些完全没见过的词（我这样不喜欢背单词的人就是这样的），那么我们会去看上下文，尝试掌握这段话的大意，去猜测这个词可能是什么，实际上这么做准确率并不高，因为我们参考的只有一段文字的上下文，但是如果我们有关于这个词的相当多的语料时候，那么就可以通过取“最大可能”的一个解释。这也正是词向量模型的一个核心解决思路。

那么，下面，我们需要给自己提出几个问题，给上面两种模型挑挑刺，看能不能解决我们所想那些问题
1.语序的问题周杰伦的父亲是谁？谁的父亲是周杰伦
2.不正确的断句的问题乒乓球拍卖完了，乒乓球拍卖完了
3.组合词语义的转换问题 IE工程师（生产-营运专有名词，而不是指做IE浏览器的工程师）即组合词问题 A + B = C 而不是 A + B = AB
4.我们经常遇到这样的描述 “我是一个做招聘网的软件工程师，做招聘模块，包括人事管理，面试邀约，薪资谈判” “我是一名招聘人事人员，专门负责招聘软件工程师，包括C，java，ruby，python等等，我对主流的软件技术都有所了解”
（我在一家做云招聘的公司“枇杷派”做简历分类器时候经常遇到这样的问题）这是一个做招聘系统的程序员，还是专门负责招聘软件工程师的HR？这个问题实际就是核心语段只占整体文本的很小一部分，怎么做到提取核心语段
5.一词多义问题，比如NLP，可以是Natural Language Processing，也可以是Neuro-Linguistic Programming，还可以是Nonlinear Programming。
事实上第三种解释还可以通过上下文区分，而一篇用神经网络去解析自然语言的论文，你就很难区分是第一种解释还是二种解释了

先来聊聊问题1
这里实际上是一个主体是谁的问题，因此在做模型的时候，需要理解主体是谁，而直接使用上述两者模型，显然容易混淆主体，目前我已知的解决了这个问题的是百度机器人和图灵机器人，我能想到的方案也是通过依存关系去处理，不知道有没有更好的方法？

另外还有一个谓语的问题，有些情况主语谓语完全相同（小王说小李是不对的，小王打小李是不对的），但是意义的层次完全不同，有些谓语是双向的（是等系动词），有些谓语是单向的，有些指向的是一个从句，有些指向一个主体

PS：突然发现没有整理上传的随笔好多。。。

SChenGe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我对文本模型的一些浅解（一）

文本模型体系现有的主流文本模型两种，文本向量模型和词向量模型。其根本在于如何用一些被切分，可量化的资源去描述一段文字或者一个词（再由词去描述文本）。文本向量是一种传统的方式，无非是通过分词，取得各个词的权重（权重的计算方法有tf，idf，TextRank，互信息，信息熵），取出其中最重要的TOP-N来标识一篇文章，当N很小时候，那么也就是目前非常流行的博客-标签系统，当N达到一定量级时候，
复制链接

扫一扫