关闭

NLTK 词频统计(一) 词频统计,绘图,词性标注

内容简介 代码一,笔记简略版本 代码二,词频统计与pandas集合,分词词性提取与词频统计结合 代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题 import matplotlib as mpl mpl.rcParams[u'font.sans-serif'] = [u'KaiTi'] mpl.rcParams[u...
阅读(1090) 评论(0)

使用NLPIR 进行中文分词并标注词性

背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或者直接下载我已经准备好的汉语自然语言处理文件包NLP源码集合代码,亦是我的笔记# - * - coding: utf - 8 -*-...
阅读(4749) 评论(0)

封装汉语自然语言处理中的常用方法(附代码:生成中文词云)

前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可以通过一行简单的代码获取清除停用词并和英语一样分词完毕,并以空格分割的汉语字符串,或者还可以获得其他功能.至于之所以加上这个例子,是...
阅读(2323) 评论(0)

汉语自然语言处理工具包下载

Python Windows10 汉语自然语言处理基本组件: 20170703...
阅读(1182) 评论(0)

多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新...
阅读(8074) 评论(0)

利用 TensorFlow 实现上下文的 Chat-bots

在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。 “Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/) 你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景...
阅读(1496) 评论(0)

Python 任意中文文本生成词云 最终版本

前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w...
阅读(1341) 评论(0)

Python NLPIR2016 与 wordcloud 结合生成中文词云

前叙该博文继承之前的文章,进一步介绍NLPIR2016的使用,三个内容(利用NLPIR 的发现新词功能自动提取文本内的新词汇,解决worldcloud中英文混合只显示中文的问题,NLPIR与worldcloud结合生成词云) 写作本博客需要一个小时,阅读需要十二分钟.使用 NLPIR2016 获取新词# 之前已经展示过的代码,介绍了NLPIR2016中获取新词的三个方式 # 获得新词,第二个参数控...
阅读(1130) 评论(0)

Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握

前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs...
阅读(5071) 评论(1)

源码:我的关于NLP的博客(持续更新中...)

决定上传我平时写的部分源码,不过暂时只打算上传有关NLP的部分,之后随着博客的不断更新,我也会不断更新这篇博客,你可以将这片博客放在你的收藏夹里,这样方便你的浏览 1.关于NLPIR的部分 20160606,第一次上传 测试pynlpir 在Python中使用NLPIR2016(快速上手与完全掌握) 百度云链接:http://pan.baidu.com/s/1eStdgRK 2...
阅读(1327) 评论(0)

中科院分词系统(NLPIR)JAVA简易教程

这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。 下载地址:http://ictclas.nlpir.org/downloads,下载最新的NLPIR/ICTCLAS分词系统下载包 授权文件下载地址:https://github.com/NLPIR-team/NLPIR/tree...
阅读(1428) 评论(0)

Python 中文分词 NLPIR 快速搭建

前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识 NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIRgithub地址:https://github.com/NLPIR-team/N...
阅读(1367) 评论(0)

Python + worldcloud + jieba 十分钟学会用任意中文文本生成词云

前述本文需要的两个Python类库 jieba:中文分词分词工具 wordcloud:Python下的词云生成工具写作本篇文章用时一个小时半,阅读需要十分钟,读完该文章后你将学会如何将任意中文文本生成词云 Python词云 worldcloud 十五分钟入门与进阶 Python中文分词 jieba 十五分钟入门与进阶代码组成简介 代码部分来源于其他人的博客,但是因为bug或者运行效率的原因,...
阅读(5329) 评论(2)

Python中文分词 jieba 十五分钟入门与进阶

整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba 开源中国地址:http://www.oschina.net/p/jieba/?fromerr=LRXZzk9z 写这篇文章花费两个小时小时,阅读需要十五分钟,读完本篇文章后您将能上手jieba下篇...
阅读(3223) 评论(3)

Python词云 wordcloud 十五分钟入门与进阶

整体简介基于Python的词云生成类库,很好用,而且功能强大.博主个人比较推荐 github:https://github.com/amueller/word_cloud 官方地址:https://amueller.github.io/word_cloud/ 写这篇文章花费一个半小时,阅读需要十五分钟,读完本篇文章后您将能上手wordcloud中文词云与其他要点,我将会在下一篇文章中介绍快速生...
阅读(27518) 评论(3)

pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update".

本篇讲的是Python环境,但是其他环境原理相同 但是如果你使用的java环境,或许 JAVA环境 解决NLPIR的License过期问题 可以更好地帮助你执行代码import pynlpir pynlpir.open()str = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。' print(pynlpir.segment(str))后,出现pynlpir.Licen...
阅读(2270) 评论(0)
    个人资料
    • 访问:253308次
    • 积分:3071
    • 等级:
    • 排名:第11967名
    • 原创:93篇
    • 转载:20篇
    • 译文:2篇
    • 评论:35条
    博客专栏
    最新评论