第三章 短语挖掘和实体识别

一. 短语挖掘

1. 什么是短语挖掘

这个的短语挖掘指的是词汇和短语的挖掘,是一个统称。短语挖掘输入的是领域语料,输出的是领域短语。领域语料是大量文章融合在一起组成的。

2. 高质量短语的评估维度

a. 频率,一个n-gram出现的频率越高,那么它是高质量的文章的可能性就越高。

b. 一致性,n-gram中的单词的搭配是否合理

b. 信息量,高质量的短语需要表达一定的主题和概念,比如“机器学习”和“这篇文章”相比,在机器学期的语料库了,前者的质量更高

c. 完整性,高质量的短语需要是一个完整的语义单元,如“支持向量机“与“向量机”相比,完整性要更高

3.领域短语挖掘方法

无监督学习方法

1. 候选短语生成:使用n-gram切割文章(n取1-6),设定频率阈值,保留频率在30以上(经验值)的短语。

2. 统计特征计算:tf-idf,textRank,PMI(点互信息), 左右邻熵。

it-idf,textRank可以筛除一下文中出现的频率高但是不那么重要的词,如代词,副词,介词,助词等。

PMI点互信息,通过衡量短语的一致性,比较n值相同的n-gram短语,哪种分割方式更合理。处理分词越界的情况。

比如说“电影院”比“的电影”更具备一致性

左右邻熵,描绘的是一个短语左右搭配的丰富度,一个好的短语左右搭配应该是分厂丰富的。而如果一个短语的左右搭配不那么丰富,就不是一个好短语。比如,“亚里士多”的右边总是出现一个“德“字,右熵不丰富,不是好短语。

3. 质量评分,综合这些特征分的结果,来评估短语的质量并得到一个分数,取评分靠前的k个短语作为输出。

有监督学习方法

在无监督学习的基础上添加样本标注,分类器学习,语料切割这两个过程。

样本标注:人工或者是远程监督的方式,远程监督一般使用在线知识库,如果短语在词库中就认为是高质量短语。

分类器学习:决策树,贝叶斯,随机深林,svm都可以,特征向量方面可以使用无监督学中的统计特征(if-idf,PMI,左右邻熵计算出来的值)

语料切割:其实就是过滤的过程,过滤候选短语中的高质量短语,进行下一轮迭代。

 

二. 同义词挖掘

1. 什么是同义词?同义词包括哪几类?

同义词是值意义相同或者相近的词。

包括下面几类: 

a. 不同国家的语言互译。如,玩具对toy

b. 相同含义的词。男孩与男生,枯萎与干枯

c.中国人的字,名,号,雅称,官称,谥号。如,宋太祖与赵匡义,周杰伦与周董

d. 动植物,药品,疾病等的别称或俗称。如:西红柿与番茄

e.简称。如,江西与赣。

2. 同义词的挖掘方法

a. 基于同义词资源的方式:爬虫爬取维基百科,百度百科,获取同义词信息。优点,准确度高。缺点,只包含书面用语。

b.基于匹配的方式:模式无法定义完全,召回率低

c.自举法:利用先用的模式找到同义词对,再利用同义词对取发现新的模式。反复重复上面两个步骤直到达到终止条件(准确率达到一定水平,或者无法发现更多的同义词)

 

三. 缩略词的检测,抽取和预测

1. 检测,抽取

缩略词的检测和抽取目的是为了发现文本中的缩略词对。目前缩略词的抽取方法主要以模式匹配为主。

1. 模式匹配:通过模板找到缩略词对。如A的同义词是B;A是B的简称等。

如何验证由模式匹配选出来的同义词的质量呢?

字符匹配程度:编辑距离,长度差异,缩略词的字在全称重的分布是否均匀。

词性特征:如北京大学的词性是【ns+n】,ns是地名,n是普通名词,显然只保留地名或者普通名词都是不对的。

2. 枚举并剪枝:枚举实体名称的所有的子序列,排除文章中没有出现的或者是出现频率太少的子序列

2. 缩略词的预测

四. 实体识别

实体识别指的是定位文章中的命名实体,并将其分到预先定义的类型集合当中。

1. 实体的类型有哪些?

粗颗粒度:人物,机构,地点,货币,时间,百分比

细颗粒度:演员,医生,运动员等。而且一个实体可有有多个标签。

2. NER的方法有哪些?

1. 基于规则匹配:优点可解释,缺点规则梳理难,无法穷尽规则,召回率低

2. 监督学习:使用BIO序列标注法,B表示实体名词的开始,I表示实体名词的中间或者是结束部分,O表示字符不是实体。

需要大量的以标注文本。使用CRF条件随机场。

半监督方法:自举法,或者是协同训练的方式,利用两个规则交替迭代不断优化的方式,得到更多的标记数据。但是需要注意如果不小心引入了错误,迭代的过程会将问题放大。每轮迭代如何进行自检呢?

3. 深度学习方法:也是监督学习方法中的一种。相对机器学习而言,不需要关注繁琐的规则和特征。但是因为这样,深度学习并没有真正意义上理解语言的含义。常用的方法BiLSTM-CRF(加密部分使用双向的LSTM,解密部分使用CRF条件随机场)

 

 

 

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!
提供的源码资源涵盖了小程序应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值