自然语言处理
文章平均质量分 69
vs tian bao
这个作者很懒,什么都没留下…
展开
-
基于贝叶斯的自然语言数据标注算法实现(开源)
基于贝叶斯的自然语言数据标注算法实现 标注数据是每个算法工程师的噩梦,无穷的数据量和无技术意义的体力活往往是很折磨人的,这里给各位介绍一个比较能大大提高标注效率的算法工具-贝叶斯,相信贝叶斯各位都是很熟悉的,这里会从算法原理到整体标注实现方案都会一一进行梳理,希望能帮到需要做标注的同学。 值得凡尔赛一下的是整体代码纯粹自己实现,且亲测标注过程中很实用,到后面只需要让模型自己预测就行,操作简单,效率大大提高(想想如果每条数据标注节省几秒,几十万几百万的数据那就省了不可估量的时间,并且同时能着实感受到所原创 2021-12-09 19:30:35 · 1242 阅读 · 1 评论 -
推荐算法之特种工程Embedding篇《个人笔记》
后续将继续原创 2021-07-27 20:54:08 · 353 阅读 · 0 评论 -
BufferHolder exceed limitation
终于找到了问题得关键,发个博文分享一下,在使用spark得时候,由于使用collect_list函数对庞大得数据进行了行转列处理,spark运行产生了:Cannot grow BufferHolder by size 134146152 because the size after growing exceeds size limitation 2147483632;at org.apache.spark.sql.catalyst.expressions.codegen.BufferHolder.gr原创 2021-05-13 16:17:57 · 1352 阅读 · 0 评论 -
哈希核的分析《学习笔记》
哈希核的算法分析 哈希函数因为可以将海量的维度空间压缩成低维空间,所以经常被使用在相关的算法种,我们熟悉的在同态加密算法中使用哈希函数对明文的公钥私钥加密,在我们熟悉的NLP中也有着大量应用,最典型的比如在搜索中,因为海量的文章作为数据来源,但是怎样利用搜词或者搜索语言从庞大的文章空间提取到相关的文章,这就需要一个空间维度降维的过程,也就是能将庞大的文章空间映射到一个有限类的空间,这样就会大大提到搜索速度,当然具体过程是复杂的,也就是需要哈希这个角色扮演一个重要的维度空间运算的作用。哈希函数解释原创 2021-05-07 20:49:41 · 207 阅读 · 0 评论 -
NLP -QA 中文件检索器及哈希核的理解和应用(三) 《个人学习笔记》
论文引用《Reading Wikipedia to Answer Open-Domain Questions》关于开放域QA学习DrQA系统文件检索器(Document Retriever) 在QA系统中,文件检索器的作用是为了能够根据问题query缩小搜索空间,并且仅仅搜索的结果是若干文章而已,这些文章和我们的问题是具有相关性的。这里会提到一个ELK(ElasticSearch,Logstash,Kibana)搜索引擎,该引擎很好的实现了检索器需要做的任务,兵器因为是免费开源,被广泛的应用。原创 2021-04-26 21:33:38 · 211 阅读 · 0 评论 -
自然语言理解理论实践-知识图谱(二)《个人学习笔记》
知识图谱(KG)是一种用于常识推理和自然语言理解的基础,它囊括了大量有关世界实体、实体属性和不同实体之间语义关系的知识。本部分提出了三大类基于深度学习的知识图谱技术:1、 知识表征学习技术--将知识图谱中的实体和关系嵌入稠密、低维且实值得语义空间;2、神经关系抽取技术--从文本中抽取可以用来构建/完成知识图谱得事实或关系;3、基于深度学习的实体链接技术--运用文本数据衔接知识图谱,这有助于完成多种不同的任务。原创 2021-03-31 21:47:11 · 279 阅读 · 0 评论 -
transformer引入位置信息--Sinusoidal位置编码《个人学习笔记》
transformer引入位置信息--Sinusoidal位置编码为什么transformer需要位置编码Sinusoidal位置编码首先,所有技术都是个人理解,并感谢技术各位分享,由此根据理解自己做个小结,希望可以帮助到需要的朋友,所有博文出现不对的地方希望能指出。 在介绍本文之前先先入为主给出俩个概念,方便后续理解: 一 语言中token位置特性:token位置是属于语言中word的属性,可以理解为token位置也定义了语言中token的意义; 二 对称性:指的是token在不同的位置但利原创 2021-03-27 17:11:12 · 3506 阅读 · 0 评论 -
自然语言理解理论实践-主要的语言理解任务(一)《个人学习笔记》
自然语言理解理论实践主要的语言理解任务希望能多多交流,共同学习进步主要的语言理解任务 首先,以介绍人机对话系统中使用语言理解为目标任务,进行之后的理论和实践背景的依据,来尽可能详细阐述清楚语言理解(SLU)这一重要的人工智能技术。 语言理解主要以域检测D、意图识别I 和填槽S为主要的任务; 1、域检测和意图识别 域检测或者意图识别 旨在检测出一句语言中若干个语义类。比如 说:我想明天从北京乘高铁去上海。当然每个人表达的方式可能不同,存在自由度(比如另个人说:想查询一下后天去上海的高铁班次),但是原创 2021-03-24 22:48:29 · 762 阅读 · 0 评论