soulmate

 

今天花了一天时间将py下抽取html数据的代码,用ruby的方式写了一遍,

 

总得过程感觉清晰度没有python好,但是ruby的写法多,所以代码还是省了不少,另外也优雅了使用了mixin

 

晚上正在慢慢下图片,现在我的爬虫是完全基于数据库了,之前在写python时完全文本化的脚本,部分中间过程的代码放在sqlite中,最终得脚本都可以独立于数据库存在,不过由于用的python的库多,还是依赖非常的严重。

 

 

另外近来的新得是crawler还可以使用yql,gae等,不过我感觉远程的还是不是很靠谱啊。

 

现在使用的ruby的话,完全依赖于rake+db

使用的是单线程,由于在纤程方面我认为eventmachine等做得还是有问题,这方面做非阴塞下载还是没有python成熟。我也怕和ror及python协同使用,所以也就有了完整的代码重写到ruby style的事情。

posted on 2011-01-21 00:40  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2011/01/21/1940743.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值