scrapy模拟表单爬虫

最新推荐文章于 2020-12-04 23:36:37 发布

VIP文章禾斗人

最新推荐文章于 2020-12-04 23:36:37 发布

阅读量2.5k

点赞数

分类专栏： Python 文章标签：爬虫 scrapy 模拟表单提交

本文链接：https://blog.csdn.net/enwhat/article/details/49407755

版权

刚入职事情比较多，有段时间没写博客了。

公司的一个项目要求，使用scrapy做爬虫，所以自己周末闲来没事也就瞎倒腾了一个爬电子书的爬虫。同时也推荐大家一个资源非常好的电子书托管平台，看云。里面的很多资料都是非常不错的感觉像是经过筛选的，关键是居然有的还有word。业界良心啊！！

1.scrapy

scrapy作为python下的爬虫框架，已经被广泛使用了，它的好处在于帮我们处理好了http请求的各种状况，不需要我们手动判断，只要我们扔给它一条url，它自然能爬出个结果来。但问题来了，我们通常的爬虫是递归做的，这样就要求我们循环爬里面的url。这就要求我们去解析网页返回的内容，找到href的字段值，再次请求，如此下去。scrapy同样为我们提供了网页分析xpath的支持等。

    def parse(self, response):
        resp = Selector(response)
        resp_url = response.url
        url_content = urlparse.urlparse(resp_url)
        scheme = url_content.scheme
        net_location = url_content.netloc
        link_list = resp.xpath("/html/body/*//dt/a/&

最低0.47元/天解锁文章

禾斗人

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy模拟表单爬虫

刚入职事情比较多，有段时间没写博客了。公司的一个项目要求，使用scrapy做爬虫，所以自己周末闲来没事也就瞎倒腾了一个爬电子书的爬虫。同时也推荐大家一个资源非常好的电子书托管平台，看云。里面的很多资料都是非常不错的感觉像是经过筛选的，关键是居然有的还有word。业界良心啊！！1.scrapyscrapy作为python下的爬虫框架，已经被广泛使用了，它的好处在于帮我们处理好了http请
复制链接

扫一扫