nlp初识
yyy32
我这辈子就怕两种人 一种是不要命的 一种是不要脸的
展开
-
初识nlp word2vec实战1 英语文本分析
Bag of Words Meets Bags of Popcorn https://www.kaggle.com/c/word2vec-nlp-tutorial/data版本 1 未用word2vec4个文件 : labelTrainData testData unlabeledTrainData sampleSubmissionimport 所需库import osimport re原创 2017-03-25 15:57:05 · 1516 阅读 · 0 评论 -
初识nlp (2 (word2vec基础
nlp处理方法人工创造dict 基于统计 hmm,crf,svmbag of wordsone-hot 1xn矩阵只有一个元素是1,其他是0 john likes to watch movies Mary likes too -> [1,2,1,1,1,0,0,0,1,1]或[1,1,1,1,1,0,0,0,1,1] john also likes watchfootball g原创 2017-03-27 17:40:33 · 496 阅读 · 0 评论 -
初识nlp ( 3 ( rnn rnn应用1 自动写作
普通神经网络 h1 = f(w1x1+w2x2+w3x3) o1 = f(w’1h1+w’2h2+w’3h3) o1<-> y1 loss’= ∆带记忆神经网络rnn带sequential的网络 sequential:有时序的 前一个的输出 在后一个的输入中考虑 lstm (long short-term memory)rnn 加强版 用xor and 来计算将上次输出 这次输入原创 2017-03-28 20:40:14 · 1890 阅读 · 0 评论 -
nlp初识 (4(cnn cnn作用text 文本分类
卷积 : y = f x g 用另一个矩阵 来对该矩阵 做运算 得到新的结果 cnn 对图片 用不同滤镜 得到不同的新矩阵 在对每个新矩阵 pooling 相当于降维 比如 8 x8 矩阵 对每个 2 x 2 取max 把8 x 8 转成 4 x4把句子当做一副画 让cnn来学 或者 cnn 比rnn合适在分类上 因为对小语病可以忍受 做了pooling关于卷积的一个血腥的讲解比如原创 2017-03-28 22:20:55 · 765 阅读 · 1 评论 -
初识nlp (5(朴素贝叶斯
贝叶斯公式 p(x|y) x p(y) =p(y|x) x p(x)就是给我们算 p(x|y) 提供了更简单的思路 , 用p(y|x)来代替 在对电子邮件进行分类 a=“恭喜你中奖了···” ,判断a是否是 b“垃圾邮件” p(b|a) 可能不容易 但可以用p(a|b) 在“垃圾邮件”中 出现 a 的概率来代替 ,对垃圾邮件统计即可朴素表现:p(“恭喜你中奖了快来领取”|”垃圾原创 2017-03-29 17:24:24 · 370 阅读 · 0 评论 -
初识nlp (1 (分词
1 nltk知识 Python上著名的自然语处理库。带语料库,词性分类库。 带分类,分词,等等功能 pip install -U nltk 安装语料库import nltk nltk.download() 简易处理流程图 2 tokenize分词>>> import nltk >>> tokens = nltk.word_tokenize(“hello, world" ) >>>转载 2017-03-24 20:10:39 · 464 阅读 · 0 评论 -
数学之美 (1 马尔科夫
马尔科夫2元模型 后一个词概率只与前一个词有关 简化了词条件概率隐马尔科夫模型(hmm)为解决该问题 马尔科夫链 P(st+1=m3|st =m2)=0.6 P(st+1=m4|st=m2)=0.4 按任意给定规则 运行一段时间T 会生成序列 s1,s2,s3,···sT隐马尔科夫链看不出s1,s2··· 就每次输出 O1,O2··· 把独立输出假设带入 那么计算 由s1,s2原创 2017-04-06 18:54:34 · 411 阅读 · 0 评论