NLP
wangyueshu
信念:打破岗位壁垒,方法和思路比工具和语言更重要。
展开
-
NLP文本分类入门学习及TextCnn实践笔记——算法实现(四)
应该是笔记的终篇了。前三篇分别介绍了文本分类的基本处理流程(补了张图在下面)、中文文本分类的代码实现以及关于模型训练的一些经验总结。这篇来记录关于TextCnn算法实现的原理和运算流程。一、基本概念卷积:矩阵卷积运算,比较典型的应用场景是图片处理。被卷积的对象是待提取特征的文本或图片的数据表示,也就是矩阵。卷积核filter:是卷积的另外一个操作参数,一般是一个n*m的矩阵,在TextCnn中因为词向量维度上不需要横向卷积,因此m等于词向量长度,例如m=300,n则类似n-gram中的窗口,原创 2020-11-10 15:29:58 · 611 阅读 · 0 评论 -
NLP文本分类入门学习及TextCnn实践笔记——模型训练(三)
这篇记模型训练。距离第一篇已过去一个月。从学习到正式启动模型训练,花了两周。模型训练召回率和准确率达到上线标准又花了两三周。训练及测试样本评估的精确率都是97%、98%,结果一到线上实验,结果惨不忍睹,才明白模型训练不是那么简单的事情。渐渐摸索出了一些门道,最后线上精确率达到95%以上。我只在一个二分类的文本分类场景成功训练并上线了模型,且除了词嵌入纬度embedding_dim超参调整外,不涉及其它的超参调整,因此下文将主要从个人的模型训练经验出发,介绍模型训练的基本思路及调优关键点。在其它的原创 2020-07-03 17:33:29 · 1315 阅读 · 0 评论 -
NLP文本分类入门学习及TextCnn实践笔记——代码实现(二)
本篇主要介绍TextCnn针对中文的分本分类的代码实现。下一篇计划讲模型训练及线上文本分类。代码基于开源代码https://github.com/dennybritz/cnn-text-classification-tf建议对NLP文本分类或CNN不了解的先阅读我的上一篇blog及以下的大神blog:NLP文本分类入门学习及TextCnn实践笔记(一)https://blog.csdn.net/wangyueshu/article/details/106493048参考的大神b...原创 2020-07-02 18:16:15 · 790 阅读 · 0 评论 -
NLP文本分类入门学习及TextCnn实践笔记——基础知识学习及理解(一)
碎碎念:之前有一些机器学习相关的概念基础,但从未实践过,看的知识也不系统。这次刚好工作中有应用需求,就以NLP的文本分类为切入点,进行相关知识的学习和模型实践。 当前进展:研究了两周,完成文本预处理、word embedding、TextCnn模型训练、API封装等代码工作,模型效果调优、验证中。计划以笔记的形式记录几篇博客。 首篇主要是个人对NLP及文本分类的理解、一些基础知识的学习及参考资料记录。下一篇计划关于TextCnn算法学习和代码实践等。 本次个人学...原创 2020-06-02 16:19:22 · 1637 阅读 · 0 评论