NLP
ssswill
这个作者很懒,什么都没留下…
展开
-
tfidf+embedding
转自:https://blog.csdn.net/pnnngchg/article/details/86500648我们知道,tfidf和embedding都是将文本表示成包含文本信息的高维向量的方法。tfidf关注的是单词在文档中的频率,最终计算出的向量包含的信息是一种单词出现频率的tradeoff。而embedding则关注的是单词的语义。两者包含的信息不同,因此将两者结合起来表示文本是对文...转载 2019-03-08 22:08:29 · 1794 阅读 · 0 评论 -
关于HashVectorizer
写在前面:HashVectorizer与tfidf类似,都是讲文本向量化的表示方法,但它节省内存,也更快。当数据集较大时,可以作为tfidf的替代。from:https://www.cnblogs.com/pinard/p/6688348.html说明2:来自:https://stackoverflow.com/questions/30024122/what-is-the-differe...原创 2019-06-03 18:13:58 · 1784 阅读 · 0 评论 -
如何使用glove,fasttext等词库进行word embedding?(原理篇)
0 序本文保证干货满满~看完本文后,你只需要一个glove或者其他已经训练好的词库,也就是一个类似txt的文件,那么你就可以把一个英文单词用一个多维(如300维向量)表示出来!并且会带入到keras中训练一条龙服务~说专业点,这就是词嵌入。在之前 ,我们使用过keras自带的embedding层进行词嵌入,效果肯定是没有glove这些好的。keras自带的词嵌入使用如下:model = S...原创 2019-05-07 21:27:29 · 5774 阅读 · 6 评论 -
如何使用glove,fasttext等词库进行word embedding?(代码篇)
建议先看:如何使用glove,fasttext等词库进行word embedding?(原理篇)再看本篇。先睹为快:本文会用到的全部代码:def get_coefs(word, *arr): return word, np.asarray(arr, dtype='float32') def load_embeddings(path): with open(path...原创 2019-05-09 19:50:21 · 1991 阅读 · 0 评论 -
Jigsaw Unintended Bias in Toxicity Classification竞赛bilstm+glove embedding解法
0.写在前面0.1本文配套github:https://github.com/willinseu/kaggle-Jigsaw-Unintended-Bias-in-Toxicity-Classification-solution如果你觉得本文对你有帮助,或者有提高,请点一个star以表支持,感谢~同时与上一篇博文的github项目是对接的:https://github.com/willi...原创 2019-05-13 19:52:59 · 2817 阅读 · 1 评论 -
用lstm实现nlp情感分析(roman urdu小语种为例)代码+原理详解
1 赛题描述link: https://www.kesci.com/home/competition/5c77ab9c1ce0af002b55af86/content/1本练习赛所用数据,是名为「Roman Urdu DataSet」的公开数据集。这些数据,均为文本数据。原始数据的文本,对应三类情感标签:Positive, Negative, Netural。本练习赛,移除了标签为Netu...原创 2019-03-13 15:28:57 · 15139 阅读 · 9 评论 -
lstm输出输出和参数你懂了吗
最近在做一个nlp的练习赛,把lstm重新彻底温习了一遍。把以前很多没搞懂的东西重新倒腾了一遍,收获真的很多,但是由于知识点较多,所以写一篇博客来记录。本文绝多数图片及内容参考自:https://www.zhihu.com/question/41949741但是本文不会讲一下很基础的东西,只会讲一些很扰人的东西。1.lstm初探相信你第一次学习lstm的时候,一定也是百度lstm,开始看博...原创 2019-03-12 21:33:06 · 33267 阅读 · 15 评论 -
深究embedding层
关于embedding层,贴出一些很好的链接,以供备忘与分享。http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.htmlhttps://blog.csdn.net/sjyttkl/article/details/80324656https://blog.csdn.net/jiangpeng59/article/details/77533309...原创 2019-03-07 20:37:21 · 1282 阅读 · 0 评论 -
TF-IDF详解与应用
先看:https://www.jianshu.com/p/c7e2771eccaa但是链接中一些参数如max_df,min_df写得不够清晰。原理介绍参考:https://blog.csdn.net/longyi_java/article/details/8625122TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与...原创 2019-03-06 21:30:20 · 1048 阅读 · 1 评论 -
利用CNN来做NLP(textcnn)
讲到nlp,我们常用的都是lstm/gru。举个例子,因为我们总会说,因为句子经过embdding后,句子为一个三维张量,假设为:(None,20,300)。其中20为timestep,也就是一个句子的单词个数,300为embdding维度。为了更深的理解句子,剖析句子语意,我们假设接上一层lstm(num_units=128,return_sequence=True),那么输出的张量就为(No...原创 2019-06-24 14:33:18 · 1888 阅读 · 1 评论