nlp
文章平均质量分 73
DASEason
https://github.com/qq547276542
展开
-
NLP中基本概念入门
词向量(Word Embedding) 词向量主要用于将自然语言中的词符号数学化,这样才能作为机器学习问题的输入。 数学化表示词的方式很多,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0,1,0,…],向量的长度为总词数。显然,独热编码有以下缺点:1.可能导致维数过大,对深度学习来说复杂度过高。2.两个词的相似程度无法表示。 词向量与独热编码原创 2017-10-18 16:29:44 · 6388 阅读 · 0 评论 -
朴素贝叶斯分类文本 python实现
朴素贝叶斯(naive bayes)模型主要用于文本分类,比如要将邮件分类为正常邮件和带侮辱性词汇邮件对于一封邮件来说其特征可以表示为该邮件中单词出现的情况。比如我们有一个5000个词的词典表,那么邮件的特征可表示成一个特征向量,特征向量的维数等于词典表的单词个数,特征向量每一维的取值空间为0或1(即这个单词是否出现)对于p(x|y),在某一组样本中:p(x1x2...x5000|原创 2017-04-27 22:10:05 · 9172 阅读 · 5 评论 -
知识图谱构建技术综述
知识图谱的定义与架构知识图谱的定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,原创 2017-10-29 17:31:44 · 20993 阅读 · 2 评论 -
解决fasttext内存不足无法读取模型的问题
fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。更赞的是,facebook提供了200多种语言的预训练模型和词向量。 然而,在安装完fasttext后,当我读取了3GB的中文模型时,却出了下面的问题:Traceback (most recent cal原创 2017-12-15 21:56:13 · 6179 阅读 · 1 评论 -
Tensorflow 利用高阶API Estimater.predict 实现实时预测,避免reload计算图
Estimater.predict是tensorflow的高阶API,但是在使用中常常会遇到如下情况: 单次预测一个大文件的速度正常,但是想做成接口来实时预测速度却缓慢:因为每次预测都会重新reload一遍计算图。那么这个问题是否有解呢?答案:yes。可以在Estimater的层面,实现tensorflow Estimater.predict 的实时预测,将计算图只读取一遍后常驻内存(这里吐槽一...原创 2018-12-18 21:22:43 · 13519 阅读 · 29 评论