scrapy模拟表单爬虫

刚入职事情比较多,有段时间没写博客了。

公司的一个项目要求,使用scrapy做爬虫,所以自己周末闲来没事也就瞎倒腾了一个爬电子书的爬虫。同时也推荐大家一个资源非常好的电子书托管平台,看云。里面的很多资料都是非常不错的感觉像是经过筛选的,关键是居然有的还有word。业界良心啊!!

1.scrapy

scrapy作为python下的爬虫框架,已经被广泛使用了,它的好处在于帮我们处理好了http请求的各种状况,不需要我们手动判断,只要我们扔给它一条url,它自然能爬出个结果来。但问题来了,我们通常的爬虫是递归做的,这样就要求我们循环爬里面的url。这就要求我们去解析网页返回的内容,找到href的字段值,再次请求,如此下去。scrapy同样为我们提供了网页分析xpath的支持等。

    def parse(self, response):
        resp = Selector(response)
        resp_url = response.url
        url_content = urlparse.urlparse(resp_url)
        scheme = url_content.scheme
        net_location = url_content.netloc
        link_list = resp.xpath("/html/body/*//dt/a/&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值