NLP
yaoyaoyaoaa
这个作者很懒,什么都没留下…
展开
-
数据不平衡之a few-shot learning
数据不平衡问题之a few-shot learning对于机器来说,他的学习过程一般建立于大量的数据训练上面,但是对于一种生活中常见的情况,他会如何处理呢?比如说,小明去动物园看到了马、熊猫,但是由于动物园里面没有斑马,小明的爸爸这样告诉小明,斑马外形和马相似,它的皮肤颜色和熊猫配色一样。那么小明的脑海中就有了熊猫的形象。for a large-scale FSL problem with 1...原创 2020-03-27 20:36:19 · 658 阅读 · 0 评论 -
命名实体识别学习总结
#Named entity recognition(NER)1.概念:NER任务是识别提及命名实体的文本范围,并将其分类为预定类别,例如人员,位置,组织等。涉及两个任务:识别、分类。2.分类:(1)通用领域:人名地名机构名;(2)特殊领域:医学、建筑…。2.主要方式:(1)基于规则:主要是根据人为设定的模板,以及预定义的领域规则。很明显,这种方式能够得到很高的召回率,但是却损失了精度。...原创 2020-03-05 17:28:43 · 662 阅读 · 0 评论 -
实体关系抽取学习记录
暑假要开始上手知识图谱的项目了,所以就把之前的那些学习积累做一个简要的梳理,加油,你的所有积累都会在某一天带给你意想不到的惊喜~~接下来进入正题关系抽取主要分为三类:(1)有监督学习:将关系抽取任务当作分类问题,根据训练数据设计有效的特征,从而学习各类分类模型,然后用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而训练语料标注工作通常耗时耗力。(2)半监督学习方法:该...原创 2019-07-01 20:38:00 · 772 阅读 · 0 评论 -
哈工大pyltp安装流程
之前使用过jieba分词做词频统计,这次尝试使用哈工大和科大讯飞提供的pyltp做文本分词,但是在安装过程中遇到了好多问题和大家分享一下我的安装过程。刚开始我直接在pycharm中按照之前安装jieba等其他包的方式进行import发现会一直报错,我又尝试直接下载发现他提示是什么c++不支持什么的,然后发现网上有各种说法,让下载很多东西。不过最后我通过下载pyltp-0.2.1-cp36-cp3...原创 2019-07-01 20:49:11 · 264 阅读 · 0 评论 -
Textrank算法初体验
随着生活节奏的加快,我们希望在最短的时间里面汲取到想要的信息。想象一下,清晨的你坐在餐桌前(当然程序员可能没有清晨~~哈哈哈哈)喝着牛奶打开新闻,大量的信息映入你的眼帘,你在一堆push给你的讯息中挣扎,可能到最后都来不及看到你最感兴趣的。这个时候,如果有人早已经帮你看过一遍所有的内容并且用最简明的方式告诉你,每一篇新闻的关键词、关键句,那么你就可以在短时间轻松获取大量的信息,有选择的深入了解。...原创 2019-07-03 20:24:31 · 350 阅读 · 0 评论 -
LDA算法的学习总结加实践
从上个学期开始就有接触到LDA主题模型,因为当时是需要做一个建筑领域的数据处理,然后导师的选择是用LDA来做,直到最近要构建知识图谱了,我打算把之前的资料做一个梳理和总结。我们设想这样的一个场景,我们有好多的应聘者,他们每一个人都有着自己的简历,我们作为公司的HR我们只能通过简历上面的每一个特征来判断这个应聘者是否是我们想要的人才。好的,那么我们对应到LDA模型中就是,(求职者适合岗位-----文...原创 2019-07-07 14:35:35 · 470 阅读 · 0 评论