NLP基础
文章平均质量分 91
NLP的一些基础内容
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
实例使用pyhanlp创建中文词云
使用pyhanlp创建词云去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像,不要误会,那个也是我写的)现在我们可以仿照之前的格式在写一份pyhanlp版本的。对于wordcloud而言,因为原生支持的英文是自带空格的,所以我们这里需要的是进行分词和去停处理,然后将...原创 2018-09-25 22:18:51 · 1531 阅读 · 0 评论 -
NLTK 词频统计(一) 词频统计,绘图,词性标注
内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题import matplotlib as mplmpl.rcParams[u'font.sans-serif'] = [u'KaiTi']mpl.rcParams[u原创 2017-07-29 21:27:51 · 11108 阅读 · 0 评论 -
使用NLPIR 进行中文分词并标注词性
背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或者直接下载我已经准备好的汉语自然语言处理文件包NLP源码集合代码,亦是我的笔记# - * - coding: utf - 8 -*-原创 2017-07-29 00:24:25 · 10386 阅读 · 0 评论 -
汉语自然语言处理工具包下载
Python Windows10汉语自然语言处理基本组件: 201707032018/01/16:Github长期更新,Windows,Linux通用原创 2017-07-03 15:22:47 · 32387 阅读 · 0 评论 -
多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序
文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新原创 2017-07-03 15:13:15 · 21198 阅读 · 13 评论 -
利用 TensorFlow 实现上下文的 Chat-bots
在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。“Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/)你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景转载 2017-07-02 23:34:42 · 5139 阅读 · 0 评论 -
Python 任意中文文本生成词云 最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w原创 2017-06-10 15:20:49 · 8154 阅读 · 6 评论 -
Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握
前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs原创 2017-06-06 17:16:12 · 25233 阅读 · 16 评论 -
源码:我的关于NLP的博客(持续更新中...)
决定上传我平时写的部分源码,不过暂时只打算上传有关NLP的部分,之后随着博客的不断更新,我也会不断更新这篇博客,你可以将这片博客放在你的收藏夹里,这样方便你的浏览1.关于NLPIR的部分20160606,第一次上传测试pynlpir在Python中使用NLPIR2016(快速上手与完全掌握)百度云链接:http://pan.baidu.com/s/1eStdgRK2原创 2017-06-06 17:13:55 · 5342 阅读 · 4 评论 -
中科院分词系统(NLPIR)JAVA简易教程
这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。下载地址:http://ictclas.nlpir.org/downloads,下载最新的NLPIR/ICTCLAS分词系统下载包授权文件下载地址:https://github.com/NLPIR-team/NLPIR/tree转载 2017-06-06 15:51:28 · 10222 阅读 · 4 评论 -
Python 中文分词 NLPIR 快速搭建
前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识 NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIRgithub地址:https://github.com/NLPIR-team/N原创 2017-06-05 23:03:58 · 10095 阅读 · 2 评论 -
Python中文分词 jieba 十五分钟入门与进阶
jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐写这篇文章花费两个小时小时,阅读需要十五分钟,读完本篇文章后您将能上手jieba下篇博文将介绍将任意中文文本生成中文词云同时如果你希望使用其它分词工具,那么你可以留意我之后的博客,我会在接下来的日子里发布其他有关内容.原创 2017-05-27 16:21:04 · 95219 阅读 · 40 评论 -
pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update".
本篇讲的是Python环境,但是其他环境原理相同 但是如果你使用的java环境,或许 JAVA环境 解决NLPIR的License过期问题 可以更好地帮助你执行代码import pynlpirpynlpir.open()str = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'print(pynlpir.segment(str))后,出现pynlpir.Licen原创 2017-05-24 18:48:40 · 7094 阅读 · 3 评论