糯米糊糊的专栏

在这里风儿横行~~

NLTK文本分割器是如何工作的

本文翻译自: http://text-processing.com/demo/tokenize/ Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。  NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。这...

2013-09-30 13:59:21

阅读数:7732

评论数:0

python的nltk中文使用和学习资料汇总帮你入门提高

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装 资料1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/...

2013-09-30 11:13:42

阅读数:61804

评论数:11

python脚本打google首页的糖果篮子游戏

chrome的主页新建标签会有logo游戏, 今天的是打糖果篮子掉糖果的小游戏。 开始之后, 按照一定的时间间隔按空格键, 小盲人会挥动棒子击打糖果篮子,然后会掉下糖果。击打10次之后,游戏结束。 这是我手工玩的最高分了。 击打的关键就是要在篮子下落的最快速度的时候,尽力挥出你的那一棒子,...

2013-09-27 16:43:14

阅读数:5283

评论数:2

博客园cnblogs的用户使用哪些分类

接上一篇, 我有分析了博客园用户使用了哪些分类。 博客园的首页有200页,获取用户1332个。 不知道是博客园的用户懒的分类, 还是程序获取数据的错误,我只获得了570个用户分类,而且很多分类的名字超级长,还很文艺。 这570个分类的统计情况如下, 取前25名,前100名的话,结果惨不忍睹,各...

2013-09-25 22:51:16

阅读数:1797

评论数:0

CSDN 博客用户都在使用哪些分类

近日, 闲来无事, 决定分析一下CSDN 博客用户都写些什么文章. 当然, 不是分析用户具体写了什么, 而是, 分析他们给自己的文章分了哪些类别. 于是, 开始折腾了. 1访问 http://blog.csdn.net csdn的博客首页(第1页) 2 获取这一页所有用户的名字, 3.访问该用...

2013-09-25 21:25:43

阅读数:3218

评论数:3

不用python 微博sdk, 使用python裸体登录微博, 然后发一条微博, 再退出微博

微博python sdk, 好用, 但是, 需要你申请新浪的app secret key, 不知道为啥, 新浪的应用开发, 老让人觉得迷糊, 不知道改选哪种类型好. 我的需求就是简单, 好用, 新浪app还是有点麻烦. 这不, 网上到处寻觅, 终于找到了一个好的裸体登录微博的python脚本. ...

2013-09-23 22:35:20

阅读数:6825

评论数:9

python生成身份证号码第18位的校验码

国内身份证号码是18位的, 以前是15位的.  123456yyyymmdd001Z 123456 是你的户籍所在地编码 yyyymmdd是你的出生日期 001是你这一天出生的人的编号, 或者其他的什么编号 Z是校验码, 可能会出现x, 这是因为校验码的算法决定的. 因为它用11除的. ...

2013-09-23 21:20:16

阅读数:3908

评论数:0

python破解猜数游戏

QQ群里的聊天机器人会发起猜数小游戏. 玩法如下: 1.用户发 #猜数    到群里 2.机器人响应: 猜数已经开始, 范围是1-10000之间的某个数 3. 你发送 #猜数[123] 到群里 4. 机器人响应: 大了或者小了, 或者恭喜你猜中了 5. 你根据刚才猜的123, 和...

2013-09-23 21:13:37

阅读数:1899

评论数:0

python破解字符串找茬游戏

最近在一个QQ群里发现有那种机器人, 发出来字符串找茬游戏: 有点类似于: 没没没没没没没没没没没没没没没没没没 没没没没没没没没没没没没没没没没没没 没没没没没役没没没没没没没没没没没没 没没没没没没没没役没没没没没没没没没 没没没没没没没没没没没没没没没没没没 没没没没没没没没没...

2013-09-23 21:05:41

阅读数:1591

评论数:0

关于中文分词的统计和规则

现在觉得中文分词, 有2种方法, 一个是按照统计规律, 另一个是按照规则. 我觉得不应该完全的分开这2种方法. 就拿统计来说, 就已经在运用规则了: 规则就是: 多次出现的组合字符可以看作是一个词. 简言之就是重复的就是词. 可以看出, 统计的同时就已经在应用规则了. 实际上,我...

2013-09-23 20:57:52

阅读数:1182

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭