2012.12.17-2012.12.23

1.完成beva的spider

2.学习mongo。(索引,唯一,分片等)

3.学习scrapy+webkit抓取js网页。(python-webkit)

4.学习android framework源码。(每天抽出1-2小时)


2012.12.17

  • 完成spider大部分功能。
  • 完善Item的工作


2012.12.18

  • 完成spider,基本抓取完beva资源。
  • beva的动画片,有些资源缺少某一集,导致episode中的index与名称不符。比如:anime id=65的资源,从缺少234集
  • 使用pywebkit可以解析带有js的html页面,但是效率很低。beva的swf抓取没有使用这种方法,因为swf url完整定义在了script的变量中,并没有用代码拼接。所以找到script标签,然后通过文本解析,找到swf变量,取得swf url

2012.12.19

  • 重构了一下spider
  • 修改动画片的集数,从名称中提取,解决了昨天集数与名称不符合的情况
  • 修改db结构,使用mongodb的无模式,集合的思想,把一些表进行整合。

2012.12.20

  • 修改一些数据结构,重新爬取
  • 学习django文件
2012.12.21
  • 学习django文档
  • 搭建django环境,参考 《env》博文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值