- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 NLTK文本分割器是如何工作的
本文翻译自: http://text-processing.com/demo/tokenize/Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。 NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个
2013-09-30 13:59:21 9196
原创 python的nltk中文使用和学习资料汇总帮你入门提高
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图文并
2013-09-30 11:13:42 77798 13
原创 python脚本打google首页的糖果篮子游戏
chrome的主页新建标签会有logo游戏, 今天的是打糖果篮子掉糖果的小游戏。开始之后, 按照一定的时间间隔按空格键, 小盲人会挥动棒子击打糖果篮子,然后会掉下糖果。击打10次之后,游戏结束。这是我手工玩的最高分了。击打的关键就是要在篮子下落的最快速度的时候,尽力挥出你的那一棒子,才能掉下最多的糖果。打着打着,觉得不过瘾,就想到用程序来打,为了减少手工操作,不用老
2013-09-27 16:43:14 5578 2
原创 博客园cnblogs的用户使用哪些分类
接上一篇, 我有分析了博客园用户使用了哪些分类。博客园的首页有200页,获取用户1332个。不知道是博客园的用户懒的分类, 还是程序获取数据的错误,我只获得了570个用户分类,而且很多分类的名字超级长,还很文艺。这570个分类的统计情况如下, 取前25名,前100名的话,结果惨不忍睹,各种奇葩分类。。。序号, 分类名称, 拥有该分类的用户数(用户总数为934人)
2013-09-25 22:51:16 2059
原创 CSDN 博客用户都在使用哪些分类
近日, 闲来无事, 决定分析一下CSDN 博客用户都写些什么文章. 当然, 不是分析用户具体写了什么, 而是, 分析他们给自己的文章分了哪些类别.于是, 开始折腾了.1访问 http://blog.csdn.net csdn的博客首页(第1页)2 获取这一页所有用户的名字,3.访问该用户的主页 http://blog.csdn.net/username, 获取所有的用户分类
2013-09-25 21:25:43 3640 3
原创 不用python 微博sdk, 使用python裸体登录微博, 然后发一条微博, 再退出微博
微博python sdk, 好用, 但是, 需要你申请新浪的app secret key, 不知道为啥, 新浪的应用开发, 老让人觉得迷糊, 不知道改选哪种类型好. 我的需求就是简单, 好用, 新浪app还是有点麻烦. 这不, 网上到处寻觅, 终于找到了一个好的裸体登录微博的python脚本.地址是: http://blog.csdn.net/monsion/article/details
2013-09-23 22:35:20 7383 11
原创 python破解猜数游戏
QQ群里的聊天机器人会发起猜数小游戏. 玩法如下:1.用户发 #猜数 到群里2.机器人响应: 猜数已经开始, 范围是1-10000之间的某个数3. 你发送 #猜数[123] 到群里4. 机器人响应: 大了或者小了, 或者恭喜你猜中了5. 你根据刚才猜的123, 和返回, 猜一个更小或更大的数, 发送 #猜数[111] , 即返回第2步那么最好的猜测方法
2013-09-23 21:13:37 2385
原创 python破解字符串找茬游戏
最近在一个QQ群里发现有那种机器人, 发出来字符串找茬游戏:有点类似于:没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没玩法就是用户发消息到群里: #找茬然后群里有个自动聊天的机器人
2013-09-23 21:05:41 1890
原创 关于中文分词的统计和规则
现在觉得中文分词, 有2种方法, 一个是按照统计规律, 另一个是按照规则.我觉得不应该完全的分开这2种方法.就拿统计来说, 就已经在运用规则了:规则就是: 多次出现的组合字符可以看作是一个词. 简言之就是重复的就是词.可以看出, 统计的同时就已经在应用规则了.实际上,我们可以认为, 中文分词只有一种方法, 那就是规则.规则, 说简单点就是自然规律或者公认的规律.
2013-09-23 20:57:52 1448
DDTCMS 0.2.3.pre.20090808
2009-11-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人