- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 【论文复现】使用RCNN进行文本分类
写在前面昨天下午去面试了微信模式识别中心的NLP,被面试官问到自闭,菜是原罪...继续之前的文本分类任务系列,前面介绍了几种:CNN,RNN,fasttext。今天的主角是RCNN对了,顺带可以了解一下RNN与CNN在NLP中的区别于共同点,这个问题在昨天面试中也被问到了。这也是今天这篇论文提出的原因之一吧。(虽然我觉得文中关于CNN的部分只是用了一个max-pooling,本质上并不...
2018-11-26 12:56:31 5992 6
原创 【论文复现】使用fastText进行文本分类
写在前面今天是补笔记的一天。。。今天的论文是来自Facebook AI Research的Bag of Tricks for Efficient Text Classification也就是我们常用的fastText最让人欣喜的这篇论文配套提供了fasttext工具包。这个工具包代码质量非常高,论文结果一键还原,目前已经是包装地非常专业了,这是fastText官网和其github代...
2018-11-23 22:05:18 3390
原创 【论文复现】使用RNN进行文本分类
写在前面这是文本分类任务的第二个系列----基于RNN的文本分类实现(Text RNN)复现的论文是2016年复旦大学IJCAI 上的发表的关于循环神经网络在多任务文本分类上的应用:Recurrent Neural Network for Text Classification with Multi-Task Learning下面提及的代码可以在github中查看:https://gi...
2018-11-18 15:37:43 5385 2
原创 NLP大杀器BERT模型解读
写在前面谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议。作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这样的模型在不同的任务均得到了目前为止最好的结果,并且有一些结果相比此前的最佳成绩得到了幅度不小的提升。但是如此好的效果并不是随便突然的一个凭空出现的想法导致的,而是作者结合NLP最近几年表现优异...
2018-11-12 19:41:29 7486 4
原创 【论文复现】使用CNN进行文本分类
写在前面不想做实验,不想看算法,不想刷Leetcode,只想躺尸,,,最近看概率图这一块看得头疼跟着大牛们的论文复现代码,然后一点一点学习吧。嗯今天要写的是关于NLP领域的一个关键问题:文本分类。相对应的论文是:Convolutional Neural Networks for Sentence Classification全部的代码github:text classifi...
2018-11-11 10:55:00 3660 15
原创 jieba源码分析(二)
0、写在前面在jieba源码分析(一)里面已经jieba分词的一部分进行了分析,本文主要解决分词的另一块:未登陆词,也就是我们常说的新词。对于这些新词,我们前面所说的前缀词典中是不存在的,那么之前的分词方法自然就不能适用了。为了解决这一问题,jieba使用了隐马尔科夫(HMM)模型。关于HMM模型的具体细节,这里不会过多介绍,网上也已经有很多资源可以参考54nlp网站HMM相关资源汇总...
2018-11-02 12:40:17 846 1
原创 jieba源码分析(一)
0、写在前面学习NLP也有一段时间了,对其中一些算法也有了比较系统的了解,所以最近就打算阅读一些nlp领域的开源代码,一方面是想查漏补缺完善一下自然语言处理的一些基础技术以及实现;另一方面是学习学习coding的规范以及tricks。关于源码平时使用较多的是python语言的jieba库,这原本是主打中文分词的一个库,但是现在的功能可远不止分词。所以在nlp技术上应该还是比较全面的,就决定是它...
2018-11-01 17:03:38 2305 4
原创 机器学习算法总结之XGBoost(下) 实战与调参
写在前面XGBoost原理已在前一篇有过说明:机器学习算法总结之XGBoost(上)本文思路与之前一篇GBDT调参( 基于scikit-learn的梯度提升树GBDT调参学习)思路相同,先遍历xgboost算法所有参数,明白其意思之后开始实战调参,数据集我还是打算选择Kaggle上的Titanic: Machine Learning from Disaster,保持工作一致性。参考资料...
2018-11-01 11:33:02 1246
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人