自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

码农成长日记

recordMyGrowing()

  • 博客(12)
  • 收藏
  • 关注

原创 用python进行分布式网页数据抓取(三)—— 编码实现

<br />呵呵,前两节好像和python没多大关系。。这节完全是贴代码,<br /> <br />这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。<br /> <br />对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这个变量存在。。。主要是为了控制输出编码。<br /> <br /

2010-09-17 20:59:00 7408 4

用python进行分布式网页数据抓取(三)—— 编码实现

呵呵,前两节好像和python没多大关系。。这节完全是贴代码,这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧。对于编码格式确实搞得我头大。。取下来页面不知道是什么编码,所以先找charset,然后转unicode。统一在unicode下操作,但是数据库是utf8的,WINDOWS的控制台又必须是gbk的,但是我IDE控制台必须是utf8的。。所以才会有DEBUG这...

2010-09-17 20:59:00 98

原创 用python进行分布式网页数据抓取(二)—— 核心问题讨论

<br />数据匹配<br /> <br />首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。<br />当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)<br /> <br />分析了几个BOKECC页面后,总结如下:<br />1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。<br />2. 页面带动态内容,需要分析,模拟AJAX去请求。<br /> <br />在基于HTML源码的数据爬取中,如果单纯

2010-09-17 20:53:00 6291 1

用python进行分布式网页数据抓取(二)—— 核心问题讨论

数据匹配首先先研究最关键的数据抓取。从形式各异的数据中将内容“扒”下来。当然得依赖我们的强力工具 正则表达式了(个人觉得基于DOM树分析很麻烦,很不灵活)分析了几个BOKECC页面后,总结如下:1. 各页面有一定差别,可能是基于不同版本。HTML写的很不正规,基于HTML标签来匹配肯定不合适。2. 页面带动态内容,需要分析,模拟AJAX去请求。在基于HTML源码...

2010-09-17 20:53:00 86

原创 用python进行分布式网页数据抓取(一)——设计

<br />这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。<br />从来没有用过python,这次来尝一下鲜,感觉还行~<br /> <br />BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。<br />整个系统采用分布式架构,我来负责做爬虫节点。<br /> <br /><br /> <br /> <br />简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成情况。<br />这

2010-09-17 20:32:00 8813

用python进行分布式网页数据抓取(一)——设计

这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。从来没有用过python,这次来尝一下鲜,感觉还行~BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。整个系统采用分布式架构,我来负责做爬虫节点。简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成...

2010-09-17 20:32:00 166

原创 跨JAVA WEB工程远程数据传输方案设计

跨JAVA WEB工程远程更新方案设计<br />版本:V0.1<br />作者:CG背景<br />需要在JAVA跨WEB工程,基于HTTP协议可靠的传输大规模数据。<br />原因:在使用数据库远程连接的时候由于远程数据库连接本身的不可靠性(服务器端经常断开与JDBC的连接),而造成事务不断回滚而造成数据始终无法传递。所以需要设计一个可靠的、通用的远程更新方案。方案流程 <br />技术选型及实验结果<br />l         序列化、反序列化实验<br />使用第三方JAVA包xstream-1.

2010-09-12 00:21:00 4785 1

跨JAVA WEB工程远程数据传输方案设计

跨JAVA WEB工程远程更新方案设计版本:V0.1作者:CG背景需要在JAVA跨WEB工程,基于HTTP协议可靠的传输大规模数据。原因:在使用数据库远程连接的时候由于远程数据库连接本身的不可靠性(服务器端经常断开与JDBC的连接),而造成事务不断回滚而造成数据始终无法传递。所以需要设计一个可靠的、通用的远程更新方案。方案流程技术选型及实验结果l 序列化...

2010-09-12 00:21:00 191

原创 任重而道远

<br />最近挺忙,忙得我都没太多兴致写博客了。<br />做得逐渐多了以后,便觉得曾经那些让自己惊异的东西也不值得往博客里写。<br /> <br />不过确实在工作中学到很多东西,第一次在如此“高压”下工作,也切身的体验到了身为管理者的压力。<br />不是为了拿薪水而工作,而是真的想把事情把项目做好,看到项目整体进展缓慢、看到团队建设差劲从心底里着急。<br /> <br />一个本来计划两周完成的项目,加班做了2个月也没有上线,总是碰到各种问题。暴露了一个不成熟的团队在一个不成熟的项目中的各种问题

2010-09-09 23:03:00 1040

任重而道远

最近挺忙,忙得我都没太多兴致写博客了。做得逐渐多了以后,便觉得曾经那些让自己惊异的东西也不值得往博客里写。不过确实在工作中学到很多东西,第一次在如此“高压”下工作,也切身的体验到了身为管理者的压力。不是为了拿薪水而工作,而是真的想把事情把项目做好,看到项目整体进展缓慢、看到团队建设差劲从心底里着急。一个本来计划两周完成的项目,加班做了2个月也没有上线,总是碰到各种问题。暴露...

2010-09-09 23:03:00 140

原创 解决页面中table CSS样式不能自动换行

<br />在table中添加<br />  style="word-wrap:break-word;word-break:break-all"<br /> 

2010-09-01 11:35:00 1212

解决页面中table CSS样式不能自动换行

在table中添加 style="word-wrap:break-word;word-break:break-all"

2010-09-01 11:35:00 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除