自然语言处理
菜园子哇
这个作者很懒,什么都没留下…
展开
-
【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】
个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼。有很多公开的语料,被他人收费,或要积分下载等等。对平时开发造成诸多不便。这边整理了一些自己收集到的语料方便大家使用新闻文本分类语料THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。非常感激前辈及学习过程中的伙伴。github...原创 2019-06-05 23:01:27 · 9345 阅读 · 4 评论 -
Keras如何在学习过程中降低学习率
随着学习的进行,深度学习的学习速率逐步下降 为什么比 固定的学习速率 得到的结果更加准确?如上图所示,曲线代表损失值,小球一开始位于(1)处,假设学习速率设置为 △ v,那么根据梯度下降,损失值将在(1) (2)之间来回移动,无法到达最小值(3)处。要想到达(3),只能降低学习速率。keras中实现方法:learning_rate_reduction = ReduceLROnPlat...转载 2019-06-05 23:06:26 · 3730 阅读 · 0 评论 -
【自然语言处理】文本情感分析-不分词实验LSTM ONEHOT
常常做中文自然语言处理的第一步就是将句子级文章级文本进行分词。但中文分词常常让我们哭笑不得乒乓球/拍/卖了乒乓/球拍/卖了这样的分词常常让我损失句子的一些特征还有刘群老师的自然语言理解太难了系列话题给大家展示一下有意思的地方难度:※※ 两颗星来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”来到儿子等校车的地方,邓超对孙俪说:“我也想等等等等等过的那辆车。”...原创 2019-06-02 14:01:06 · 894 阅读 · 0 评论 -
自然语言处理-命名实体识别的预料优化
本文主要是针对https://github.com/Determined22/zh-NER-TF 这个开源工程中的一个ner语料进行优化非常标准的命名实体识别语料,语料的质量也是非常的高。但是有个小问题语料对于人物的标注,有非常多带称谓的人物只标注的姓导致识别到非常多单字的姓效果非常差。例如张女士、和张师傅识别结果都是张、张。但我认为称谓也应该附带上这边我花了两天时间,对语料中大约...原创 2019-07-13 16:50:33 · 774 阅读 · 0 评论 -
自然语言处理-如何使用百度的中文开源词法分析工具(LAC) 进行命名实体语料标注 python
githubhttps://github.com/baidu/lac这是百度开源的一个词法分析工具首先要安装paddlepaddlepip install paddlepaddlepip install paddlehub PaddleHub 是基于 PaddlePaddle 开发的预训练模型管理工具,可以借助预训练模型更便捷地开展迁移学习工作,旨在让 PaddlePad...原创 2019-07-14 15:55:12 · 4608 阅读 · 0 评论