- 博客(12)
- 收藏
- 关注
原创 用python进行分布式网页数据抓取(三)—— 编码实现
<br />呵呵,前两节好像和python没多大关系。。这节完全是贴代码,<br /> <br />这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。<br /> <br />对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这个变量存在。。。主要是为了控制输出编码。<br /> <br /
2010-09-17 20:59:00 7408 4
用python进行分布式网页数据抓取(三)—— 编码实现
呵呵,前两节好像和python没多大关系。。这节完全是贴代码,这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这...
2010-09-17 20:59:00 98
原创 用python进行分布式网页数据抓取(二)—— 核心问题讨论
<br />数据匹配<br /> <br />首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。<br />当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)<br /> <br />分析了几个BOKECC页面后,总结如下:<br />1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。<br />2. 页面带动态内容,需要分析,模拟AJAX去请求。<br /> <br />在基于HTML源码的数据爬取中,如果单纯
2010-09-17 20:53:00 6291 1
用python进行分布式网页数据抓取(二)—— 核心问题讨论
数据匹配首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)分析了几个BOKECC页面后,总结如下:1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。2. 页面带动态内容,需要分析,模拟AJAX去请求。在基于HTML源码...
2010-09-17 20:53:00 86
原创 用python进行分布式网页数据抓取(一)——设计
<br />这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。<br />从来没有用过python,这次来尝一下鲜,感觉还行~<br /> <br />BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。<br />整个系统采用分布式架构,我来负责做爬虫节点。<br /> <br /><br /> <br /> <br />简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成情况。<br />这
2010-09-17 20:32:00 8813
用python进行分布式网页数据抓取(一)——设计
这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。从来没有用过python,这次来尝一下鲜,感觉还行~BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。整个系统采用分布式架构,我来负责做爬虫节点。简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成...
2010-09-17 20:32:00 166
原创 跨JAVA WEB工程远程数据传输方案设计
跨JAVA WEB工程远程更新方案设计<br />版本:V0.1<br />作者:CG背景<br />需要在JAVA跨WEB工程,基于HTTP协议可靠的传输大规模数据。<br />原因:在使用数据库远程连接的时候由于远程数据库连接本身的不可靠性(服务器端经常断开与JDBC的连接),而造成事务不断回滚而造成数据始终无法传递。所以需要设计一个可靠的、通用的远程更新方案。方案流程 <br />技术选型及实验结果<br />l 序列化、反序列化实验<br />使用第三方JAVA包xstream-1.
2010-09-12 00:21:00 4785 1
跨JAVA WEB工程远程数据传输方案设计
跨JAVA WEB工程远程更新方案设计版本:V0.1作者:CG背景需要在JAVA跨WEB工程,基于HTTP协议可靠的传输大规模数据。原因:在使用数据库远程连接的时候由于远程数据库连接本身的不可靠性(服务器端经常断开与JDBC的连接),而造成事务不断回滚而造成数据始终无法传递。所以需要设计一个可靠的、通用的远程更新方案。方案流程技术选型及实验结果l 序列化...
2010-09-12 00:21:00 191
原创 任重而道远
<br />最近挺忙,忙得我都没太多兴致写博客了。<br />做得逐渐多了以后,便觉得曾经那些让自己惊异的东西也不值得往博客里写。<br /> <br />不过确实在工作中学到很多东西,第一次在如此“高压”下工作,也切身的体验到了身为管理者的压力。<br />不是为了拿薪水而工作,而是真的想把事情把项目做好,看到项目整体进展缓慢、看到团队建设差劲从心底里着急。<br /> <br />一个本来计划两周完成的项目,加班做了2个月也没有上线,总是碰到各种问题。暴露了一个不成熟的团队在一个不成熟的项目中的各种问题
2010-09-09 23:03:00 1040
任重而道远
最近挺忙,忙得我都没太多兴致写博客了。做得逐渐多了以后,便觉得曾经那些让自己惊异的东西也不值得往博客里写。不过确实在工作中学到很多东西,第一次在如此“高压”下工作,也切身的体验到了身为管理者的压力。不是为了拿薪水而工作,而是真的想把事情把项目做好,看到项目整体进展缓慢、看到团队建设差劲从心底里着急。一个本来计划两周完成的项目,加班做了2个月也没有上线,总是碰到各种问题。暴露...
2010-09-09 23:03:00 140
原创 解决页面中table CSS样式不能自动换行
<br />在table中添加<br /> style="word-wrap:break-word;word-break:break-all"<br />
2010-09-01 11:35:00 1212
解决页面中table CSS样式不能自动换行
在table中添加 style="word-wrap:break-word;word-break:break-all"
2010-09-01 11:35:00 93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人