自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

糯米糊糊的专栏

在这里风儿横行~~

  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 NLTK文本分割器是如何工作的

本文翻译自: http://text-processing.com/demo/tokenize/Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。 NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个

2013-09-30 13:59:21 9196

原创 python的nltk中文使用和学习资料汇总帮你入门提高

nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建  http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html   这个图文并

2013-09-30 11:13:42 77798 13

原创 python脚本打google首页的糖果篮子游戏

chrome的主页新建标签会有logo游戏, 今天的是打糖果篮子掉糖果的小游戏。开始之后, 按照一定的时间间隔按空格键, 小盲人会挥动棒子击打糖果篮子,然后会掉下糖果。击打10次之后,游戏结束。这是我手工玩的最高分了。击打的关键就是要在篮子下落的最快速度的时候,尽力挥出你的那一棒子,才能掉下最多的糖果。打着打着,觉得不过瘾,就想到用程序来打,为了减少手工操作,不用老

2013-09-27 16:43:14 5578 2

原创 博客园cnblogs的用户使用哪些分类

接上一篇, 我有分析了博客园用户使用了哪些分类。博客园的首页有200页,获取用户1332个。不知道是博客园的用户懒的分类, 还是程序获取数据的错误,我只获得了570个用户分类,而且很多分类的名字超级长,还很文艺。这570个分类的统计情况如下, 取前25名,前100名的话,结果惨不忍睹,各种奇葩分类。。。序号, 分类名称, 拥有该分类的用户数(用户总数为934人)

2013-09-25 22:51:16 2059

原创 CSDN 博客用户都在使用哪些分类

近日, 闲来无事, 决定分析一下CSDN 博客用户都写些什么文章. 当然, 不是分析用户具体写了什么, 而是, 分析他们给自己的文章分了哪些类别.于是, 开始折腾了.1访问 http://blog.csdn.net csdn的博客首页(第1页)2 获取这一页所有用户的名字,3.访问该用户的主页 http://blog.csdn.net/username, 获取所有的用户分类

2013-09-25 21:25:43 3640 3

原创 不用python 微博sdk, 使用python裸体登录微博, 然后发一条微博, 再退出微博

微博python sdk, 好用, 但是, 需要你申请新浪的app secret key, 不知道为啥, 新浪的应用开发, 老让人觉得迷糊, 不知道改选哪种类型好. 我的需求就是简单, 好用, 新浪app还是有点麻烦. 这不, 网上到处寻觅, 终于找到了一个好的裸体登录微博的python脚本.地址是: http://blog.csdn.net/monsion/article/details

2013-09-23 22:35:20 7383 11

原创 python破解猜数游戏

QQ群里的聊天机器人会发起猜数小游戏. 玩法如下:1.用户发 #猜数    到群里2.机器人响应: 猜数已经开始, 范围是1-10000之间的某个数3. 你发送 #猜数[123] 到群里4. 机器人响应: 大了或者小了, 或者恭喜你猜中了5. 你根据刚才猜的123, 和返回, 猜一个更小或更大的数, 发送 #猜数[111] , 即返回第2步那么最好的猜测方法

2013-09-23 21:13:37 2385

原创 python破解字符串找茬游戏

最近在一个QQ群里发现有那种机器人, 发出来字符串找茬游戏:有点类似于:没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没玩法就是用户发消息到群里:    #找茬然后群里有个自动聊天的机器人

2013-09-23 21:05:41 1890

原创 关于中文分词的统计和规则

现在觉得中文分词, 有2种方法, 一个是按照统计规律, 另一个是按照规则.我觉得不应该完全的分开这2种方法.就拿统计来说, 就已经在运用规则了:规则就是: 多次出现的组合字符可以看作是一个词. 简言之就是重复的就是词.可以看出, 统计的同时就已经在应用规则了.实际上,我们可以认为, 中文分词只有一种方法, 那就是规则.规则, 说简单点就是自然规律或者公认的规律.

2013-09-23 20:57:52 1448

Selenium IE WebDriver

Selenium IE WebDriver

2017-08-06

DDTCMS 0.2.3.pre.20090808

a CMS based on django 1.0,supported by Django Dream Team,created by huyoo353 on 2008-NOV-10. -------------------------------------------------------------------------------- ddtcms ver0.1一些说明: 取消了registration的整合,因为它在google code不弄了,我用了userprofile,功能更强 使用的photologue加了自动修改上传的图片名,采用时间和随机码 -------------------------------------------------------------------------------- ddtcms一些说明: 模板的css参考了聚友网http://www.ogo.cc/index.php 首页index.html的框架用了一点poco网的,最顶端的参考了QQ首页的横条。 模板使用我想让每个app自带模板 views很多没有写,大多用的是generic_views blog用了分页,news,article继承blog的entry对象 评论使用了django自带的comments http://127.0.0.1/sitemap.xml 有错误,因为django自带flatpage有问题 http://127.0.0.1/sitemap_blog.xml 可以用 整合了registration,profiles,django-forum,前两者主要是解决了一些模板的问题,就可以用了。以后要完善的就是mysite 的 member模块了。 模板标记中,因为django-forum使用了markdown,所以要下载和安装markdown。 另外,国际化页面,使用了gettext,请到sf下载安装 以上内容见docs/更新历史。txt 还有很多地方要完善,首先要完善的就是的blog中不能发图片,只有photo模块可以发图片,现在比较忙,以后在搞吧,嘿嘿 截图请到我的群相册中去看 我的群号码69930365,Django 梦之队,欢迎讨论时加入,是一个公开小群,来者不拒,上限100人。 代码去除了(.pyc) rar格式压缩,共计3.6M ,包含了网站截图和一些图片,还有一些参考资料,以及一些模板碎片 忘了说了我的django是1.0版本的 -------------------------------------------------------------------------------- 管理帐户/密码 admin/admin DDTCMS Summary: DDTCMS(Django Dream Team's Content Management System),is a CMS based on django 1.0,supported by Django Dream Team,created by huyoo353 on 2008-NOV-10. http://code.google.com/p/ddtcms/ admin u/p: admin/admin Requirements: * django 1.0 Django version 1.0 or greater. * PILThe Python Imaging Library,Source: http://www.pythonware.com/products/pil/ * markdown Markdown is a text-to-HTML conversion tool for web writers. http://daringfireball.net/projects/markdown/ * django-navbar Site navigation controlled from the django admin with: Navigation bar Navigation tree Chained Navigation bars JSON sub tree requests (comming soon) Permission control on which entries are seen http://code.google.com/p/django-wikiapp/ # django-wikiapp Django WikiApp is a pluggable application for Django that aims to provide a complete Wiki (for really small values of "complete") http://code.google.com/p/django-wikiapp/ # django-photologue # django-forum # django-tagging # django-pressroom # gettext Optional(needed when you use i18n tags in code or templates) # Google Data API Optional(allows image searching) Download it from http://code.google.com/p/gdata-python-client/ # django-profile http://code.google.com/p/django-profile/ This is a Django pluggable user profile zone which can be used and customized easily in your social application web platform developed in django. App Directory Structure: appname/ --templates/ ----appname/ --templatetags/

2009-11-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除