自然语言处理相关
文章平均质量分 63
赵小越
内心戏丰富的的女深井吧
展开
-
项目记录与总结--理清思路
需要对推文来进行很好的过滤,在这里我主要考虑的是推文外部特征的过滤,需要知道到底有哪些外部特征,没有涉及到语义的那些特征。判断的依据: 第一:推文单词数很少的时候,认为表述不清事件信息,故认为很大程度是非事件。 第二:一般而言,大写字母很多的情况下,我们认为不太规范,也将这个作为一个特征 第三:命名实体的个数,但因为命名实体识别的不准确性,所以在统计的数据之前来加一个权值。 第四:认为引用词原创 2018-01-05 13:50:40 · 343 阅读 · 0 评论 -
LDA主题模型(一)------数学基础
lda的数学基础是理解LDA模型的最基础的东西,其中涉及到了gamma分布,beta分布,dirichlet分布,以及频率派,贝叶斯派的思想,以及常见的随机模拟(MCMC,Gibbs采样等),文本建模的思想等。 ...原创 2018-08-09 16:35:52 · 356 阅读 · 0 评论 -
PLSA的理解及推导
plsa对于文本主题的发展,在于其对于lsa进行了概率化,也就是文档的生成过程涉及到了选择主题,然后从主题中选择单词的过程,这二个选择的过程都满足多项式分布的情况。 对于PLSA而言,就是一个典型的EM算法问题呀。主题就是隐含变量,已知变量就是单词,文本的情况。再求解EM算法时,首先要明确极大化的对数似然函数,然后求E步,E步求解中首先要把隐含变量的条件概率求出来,...原创 2018-08-09 16:54:57 · 2918 阅读 · 0 评论 -
Word2vec的推导及理解
原创 2018-08-07 14:43:20 · 403 阅读 · 0 评论 -
Glove模型的理解和推导
Glove模型,也是一个较为常用的词向量度量的方法,可以通过gensim来调用Glove模型,训练好的word2vec与glove模型只有文本开头不一样(txt方式),word2vec的训练模型前比glove多了一行,说明了训练个数以及维度的信息。只需要加上这一维信息,就可以利用gensim来调用glove模型来度量文本的词向量。 ...原创 2018-08-07 17:18:52 · 1751 阅读 · 0 评论 -
LSI(SVD)、NMF的理解及推导
主题模型,是一种语言模型,是对于文字中隐含的主题的一种建模的方法。对于主题模型的副产品,一个很重要的应用在于用主题模型方法来抽取词向量,其中,LSI方法是词向量分布式表示方法中的syntagmatic model中的典型代表,利用了词之间的共现情况,也就是利用到了相似的词出现的语境类似的特性,然后得到词向量的表述,是一种基于矩阵(基于计数)的词向量抽取模式。...原创 2018-08-08 11:53:29 · 1262 阅读 · 0 评论 -
自然语言处理入门---学习方法概述
今日,学习的资料来源为:如何在NLP领域第一次做成一件事 自然语言处理的研究内容:1,句法语义分析(主要对句子进行分词,词性识别,命名实体识别,句法分析,语义角色分析,多义词消歧等)2, 信息抽取(从文本中抽取重要的信息,主要涉及到了实体识别,时间抽取,因果关系抽取等关键技术)3,文本挖掘(对文本数据进行聚类,分类,信息抽取,摘要,情感分析等主流的统计机器学习)4,机器...原创 2018-10-24 11:11:48 · 407 阅读 · 1 评论 -
《CS224n斯坦福课程》-----第一课
学习笔记:cs224n1学习视频:cs224n1学习课件:cs224n1第一个问题:什么是自然语言处理自然语言处理是一个交叉学科,是计算机科学,人工智能,以及语言学的交叉学科,而且与计算机视觉相比,它是很独特的一部分,因为只有人类才拥有语言,所以自然语言处理可以说是一个很有挑战性的问题。对于自然语言处理而言,一般有几个阶段speech 语音 text 文本phonetic...原创 2018-11-30 16:13:16 · 515 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第三课
学习笔记:cs224n3学习视频:cs224n3学习课件:cs224n3上课的好处,就在于每节课老师都会解决几个问题,跟着老师的思路走,然后就可以清晰知道这节课学习了什么。1,还是继续聊聊word2vec对于word2vec而言,要遍历整个语料库的每个词,然后预测词的上下文的情况,根据损失函数的随机梯度下降,来求解二个词向量的情况。要更新的参数高达|V|*2*m。尤其对于传统的wo...原创 2018-12-07 19:10:43 · 421 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第二课
学习笔记:cs224n2学习视频:cs224n2学习课件:cs224n2同样,今天这节课还是简要的由几个问题引出,然后把思考结果书写出来。1,什么是词语的意思,如何来进行表述呢我们每天说词语的意思,那么到底什么是词语的意思呢?其实就是蕴含在词语中的所要传达的信息量。对于英文中,有一个神器,WordNet,这个就是词语界的百科全书,通过NLTK包可以使用这个聚集了大量前人心血的东西。...原创 2018-12-03 14:15:12 · 312 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第四课
学习笔记:cs224n4学习视频:cs224n4学习课件:cs224n4这节课要解决的二个问题。第一,简单的softmax分类器一而言,对于分类问题,是通过给定训练集数据,然后通过SVM或者其他方法来得到一个分类决策边界,对于softmax而言,也是可以作为分类函数来出现,可以利用softmax来实现对于单词情感的分类等单词级别的分类操作。此处介绍的是,softmax来作为单词...原创 2018-12-08 11:28:44 · 381 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第一部分的大作业
看到简化版的题目,我觉得我就像一个脑残,根本看不懂,只有看到原题目,我才知道要做啥。我现在把原题目贴出来,然后一一的解答。 题目意思:(a) 证明softmax函数的一个性质,在输入中存在偏移,但softmax的值是不随着偏移而改变。在实践中,我们认为这个偏移值一般是输入中的最大值。(b) 给出输入矩阵,N行D列,然后计算每行的softmax函数值,最...原创 2018-12-13 11:12:51 · 1225 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第六课
学习笔记:cs224n6学习视频:cs224n6学习课件:cs224n6这节课,又听的云里雾里的,感觉真的很多的东西一遍真的听不懂,听不明白。所以要多听几遍,多去思考。第一个问题:常用的描述语法的二种观点。1)短语结构文法,用英语来表述:Constituency=phrase structure grammar=context free grammers(CFGs)这种表达语法...原创 2018-12-19 20:36:25 · 298 阅读 · 0 评论 -
《CS224n斯坦福课程》-----第七课
学习笔记:cs224n7学习视频:cs224n7学习课件:cs224n7 这节课开始,就涉及到了我最弱的那部分了。但慢慢来,跨过这个坎,说不定就变成我最强的能力了。一,什么是深度学习框架简单来说,就是有标准的模板,里面有各种好用的模板,可以快速上手,然后也可以方便交流。尤其对于梯度的计算,真的是方便,不用人每天纠结于导数的数学之中,把人解放出来,能够更好的集中于问题的...原创 2018-12-24 11:16:38 · 268 阅读 · 0 评论 -
WordNet的了解和学习
wordnet是面向语义的英语词典,有更加丰富的结构信息。 首先,wordnet可以帮助我们寻找同义词。from nltk.corpus import wordnet as wnwn.synset('motorcar') 比如是motorcar,则得到的是car.n.01(01代表只有一种同义词集)的同义词集,我们来得到同义词的具体的词条名字wn.sy...原创 2018-07-11 10:05:31 · 2969 阅读 · 2 评论 -
对于单条短文本数据的分类(噪声数据过滤)
似乎还没在语义方向来进行深入处理,这一年一直往结构特征的角度来进行处理,但真真的觉得这还是一个死胡同,没办法啊,所以叫人在江湖身不由己。哈哈。今天新思考了一个点,就是通过统计的角度,来判断词性之间的搭配关系。 首先,我先讲一下思路,我只是进行了很粗略的统计,甚至都是暴力的手段,通过统计二元词性的搭配的问题,很粗略的判断最可能出现的二种词性的搭配问题。 ...原创 2018-06-27 14:33:32 · 1707 阅读 · 0 评论 -
自然语言处理数学基础--《自然语言理解》笔记
自然语言处理的二种的基本方法:基于规则的分析方法,基于语料库的统计方法。 这一部分,主要是概率论基础,这一部分因为平时用的比较多,我就直接把这部分的讲义传网盘算了。看这一部分的内容的同时,发现自己的知识缺失点,主要在统计检验这个地方。...原创 2018-06-20 17:33:35 · 563 阅读 · 0 评论 -
训练集重新构建及程序,训练集优化
在做项目过程中,发现训练集真的很重要,我们分类器采用的是决策树,决策树是不需要对特征来进行归一化处理的,而且对于我们的目标而言是比较契合的,但是我们的训练数据不太好,构建的树并不是我们想要的树,我们需要不断的对训练数据来进行处理,最终得到我们满意的树,也就是符合要求的决策树分类器。原创 2017-12-02 10:28:39 · 757 阅读 · 0 评论 -
比赛记录
今明二天的工作内容:读题,审题,看数据,理解题目要求。首先给出的训练数据:t_ads.csv:广告相关 shop_id :店铺的ID charge:广告充值费用 consume :广告消费费用 create_dt : 创建的时间t_comment.csv : 评论相关 shop_id :店铺的ID create_dt : 创建的时间 bad_num : 不好的评价的数目 good_n原创 2017-11-20 19:34:19 · 340 阅读 · 0 评论 -
主题-情感识别的比赛
做的过程中,发现问题,然后不断的修正的过程。原创 2017-11-07 17:31:55 · 1261 阅读 · 1 评论 -
短文本分类记录
哎,研究了半个多月的主题识别,刚有重要的突破,好吧项目需要,又得重拾老本行了,心情忐忑,一方面担忧找工作,一方面也是对自己的能力是质疑的。之前一直在做短文本分类,做了很久了,从大四毕设开始就在做文本过滤这一块,我需要静下心来好好思考一下我自己的工作,以及下一步的该做什么的问题。 所做工作的发展过程记录如下: 大四的时候,我所做的工作就是简单的将所需要的文档提取出来,即提取抓取的推文的text字段原创 2017-10-24 21:56:53 · 938 阅读 · 1 评论 -
LDA的使用记录---LDA库
LDA的原理,花了一周也总算理清一些条目了,然后下一步就是实现,对于LDA的使用,有几种常用的办法:1,采用LDA库,pip install lda,地址为:https://github.com/ariddell/lda;2,采用gensim中的模块;3,采用scikit-learn中模块。在这里我们先采用LDA库来实现:其中采用了直接统计词频的方法,以及统计TF-IDF作为特征的二种不同的方法。原创 2017-10-11 11:46:41 · 3244 阅读 · 1 评论 -
LDA的使用记录--gensim库
利用gensim库中的LDA方法,并简单实现原创 2017-10-11 21:33:58 · 7515 阅读 · 3 评论 -
LDA的使用记录--TREC,测试
主题识别的应用的测试记录原创 2017-10-12 22:00:44 · 1393 阅读 · 1 评论 -
LDA的评价标准
最近半个月一直纠结与LDA中,拔也拔不出来,有很多的东西我自己是不太理解的,现在还是重新理一下思路,然后再重新来做吧。 对于评价聚类算法的好坏的评价指标: 第一是利用有分类标签的测试数据集,然后判断聚类的结果与真实的结果之间的差距。 第二是利用无分类标签的测试数据集,用训练出来的模型来跑测试数据集,然后计算在测试数据集上,所有的token似然值几何平均数的倒数,也即perplexity指标,这转载 2017-10-19 11:21:27 · 6783 阅读 · 0 评论 -
主题模型的学习
对于主题模型而言,重新再理一遍思路,然后在梳理思路的同时,可以知道自己理解不到位的点,也许可以知道下一步的应用情况。 一般而言,我们对于文档集的表示是通过在词项空间来表示的,即利用词袋模型(bag-of-words)的形式来表示文档,此时的词项空间维数很大,通过主题模型之后,可以将文档的维数降低到K维,(K个主题),此时就可以大幅度的降维。 主题模型的起源是LSA(LSI),其并不是一个概率模型原创 2017-10-16 16:26:47 · 1245 阅读 · 0 评论 -
关键词抽取模型得总结
对于文本分析而言,关键词是很重要的一个分析成分,对于抽取关键词而言,一般采用的有四种方式。首先,对于TF-IDF,TF指的是词频, IDF指的是逆文档频率,一般是二维矩阵, 行代表的是文档,列代表的是单词。优点是可以很快的提炼出代表性的单词,一般而言,精度满足需求,但主要的缺陷在于应用与分类中,如何应用是一个问题。在某一类文本中,出现词频高的词不仅仅是停止词之类的,词频高的词也可以很好的代表这一类...原创 2018-06-01 20:46:43 · 1707 阅读 · 0 评论 -
句法分析的学习
句法分析(Sentence Parsing)有二层含义,一是指根据文法对一个句子进行分析,建立这个句子的语法树,即文法分析(Syntactic Parsing);二是指对一个句子中各成分的语义进行分析,得到对这个句子的语义的一种描述,也就是语义树,即语义分析(Semantic Parsing)。 【文法分析】 背景:之前的套路,基于规则的方法,那...原创 2018-06-20 16:12:02 · 818 阅读 · 0 评论 -
自然语言处理综述--《自然语言理解》笔记
有时候觉得很好笑,每天说自己做自然语言处理,可真正,自然语言处理到底是做什么的,我也没有搞明白,不透彻,整个背景还是空缺的,现在对这部分的知识点进行弥补。 看的是宗成庆老师的这本书的讲义。 我们说的自然语言处理(Nature language processing,NLP),是计算语言学(Computational Linguistics)的应用...原创 2018-06-20 17:07:01 · 3680 阅读 · 1 评论 -
《CS224n斯坦福课程》-----第五课
学习笔记:cs224n5学习视频:cs224n5学习课件:cs224n5在这一部分中,主要介绍了二大部分:第一大部分就是反向传播的推导,第二大部分就是如何做项目。我们将我们的小眼睛集中在第一部分的内容。在上节课中,我们推导了神经网络的反向传播的导数。在上节课中,我们其实有一个隐藏层,有一个输出层,算二层,首先回顾一下上节课的内容。 ...原创 2018-12-19 12:39:39 · 258 阅读 · 0 评论