美丽的Python
iteye_13753
这个作者很懒,什么都没留下…
展开
-
工作杂记
今天接到一个任务,实现一个Spider,来方便团队的资讯和内容编辑人员,提高团队的开发效率.说实话,这个东西经常看见别人提起,但是实际动手发现一个问题是,简单的功能好做但是普遍的适应性就很差:比如可以在Sina体育版的新闻实现我的需求可是在时政版就不行-_-! 还有一些专题带了Video的,这个就得做一大堆的条件预判断,OMG,网易和Sohu偶还没有考虑呢! 不过我也发现Google的爬虫也是Py...2008-01-01 15:35:50 · 96 阅读 · 0 评论 -
代码第十次错误
娘你的,代码又错了.fk,mysqldbfk,utf8fk,mysqlto be continued!2008-03-10 01:24:31 · 123 阅读 · 0 评论 -
Python环境编码与MySQL中文编码操作
经过30个小时的coding,终于解决了编码问题.现在把过程和体会记录下来:PMySQL 数据库方面:数据库的创建支持UTF8: [color=red][b]CREATE DATABASE db_name DEFAULT CHARACTER SET utf8 COLLATE utf8_bin;[/b][/color]很多时候,默认的会选择COLLATE utf8_general_c...2008-03-10 17:54:59 · 114 阅读 · 0 评论 -
Python数据库连接池DBUtils
DBUtils 是一套允许线程化 Python 程序可以安全和有效的访问数据库的模块。DBUtils已经作为 Webware for Python 一部分用来结合 PyGreSQL 访问 PostgreSQL 数据库,当然他也可以用在其他Python应用程序中来访问 DB-API 2 兼容的数据库接口。模块DBUtils实际上是一个包含两个子模块的Python包,一个用于连接DB-AP...2008-03-11 17:31:14 · 145 阅读 · 0 评论 -
发布一个简单的起点阅读下载工具
使用方法:进入程序目录,输入123.exe 按照提示 输入需要的章节url,程序即会自动下载该章节的text文本存储到程序目录下,以章节id为名.由于源代码很简单,就不献丑了,欢迎各位和我多多赐教,我也会完善后续版本.经兜兜提醒发现,原来起点改版了,新的网站采用.net架构,目前程序只能分析cmfu.com即asp的老版本架构起点页面,这个问题我会在下一个版本解决...2008-03-12 23:32:09 · 139 阅读 · 0 评论 -
起点小说下载工具 代码汇
起点现在的双域名分别是不同的页面架构技术:cmfu是原来老的ASP,对于公开章节,起点采用的是js调用一个txt,相对原来直接页面显示,确实是一个明智的选择(对抓取的来说也方便:p).qidian采用的是新的.Net技术,这个里面就需要采用正则去匹配了.结合上一篇文章我的小程序,这里将社区内相关的代码全部show一下.首先是我的:[code="python"]#!/us...2008-03-15 09:29:41 · 465 阅读 · 0 评论 -
New SubProject TPDA
Xspider2的前期已经完成,目前的版本是0.1.1b可以实现 Single page的抓取; 页面深度的返回与存储 现在打算在X2的基础上增加一个页面深度及路径的算法,这个算法我称之为TPDA,按照GNU风格的解释 TPDA: The Page/Point Depth Algorithm. 争取实现:页面深度和路径无分词文本空间高频词语提取路径最优算法核心算法可能采取JAVA去描述,Pytho...2008-03-30 00:09:31 · 223 阅读 · 0 评论