第二章——python爬虫scrapy与wget

最新推荐文章于 2023-10-02 04:26:21 发布

馮凯杰w

最新推荐文章于 2023-10-02 04:26:21 发布

阅读量241

点赞数

分类专栏：笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39664636/article/details/109157033

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

因为换了数据岗的工作，因此一直没有更新，为了让自己不会很快忘记之前的学习过程，抓紧记录一下。

sracpy
wget

环境：
macOS/Linux
python 3.7.3
scrapy 2.4

前言：
在阅读本博客之前您如果您没有掌握Xpath、Urllib2知识，您应该先阅读相关内容。

sracpy

在写scrapy之前，先吐槽一波scrapy的中文文档，国内一共有两个版本：0.26与1.5，而scrapy已经更新到2.4…对于英语不好的人来说阅读英文文档确实是一个难点。
本节分为四个小点

安装

我使用的是linux系统下的软件包直接安装的

pip3 install scrapy

安装过程可能报的错，解决方案：

解决Could not find a version that satisfies the requirement Twisted>=13.1.0 (from Scrapy): link.
解决You are using pip version 9.0.1, however version 18.0 is available. You should consider upgrading: link.
解决import twisted.persisted.styles # NOQA ModuleNotFoundError: No module named ‘twisted.persisted’ : link.

无身份验证爬取

简单搭建scrapy

#到达爬虫所在文件夹
cd ...

身份验证爬取

简单反爬机制

wget

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第二章——python爬虫scrapy与wget

因为换了数据岗的工作，因此一直没有更新，为了让自己不会很快忘记之前的学习过程，抓紧记录一下。sracpy安装无身份验证爬取身份验证爬取简单反爬机制wget环境：macOS/Linuxpython 3.7.3scrapy 2.4前言：在阅读本博客之前您如果您没有掌握Xpath、Urllib2知识，您应该先阅读相关内容。sracpy在写scrapy之前，先吐槽一波scrapy的中文文档，国内一共有两个版本：0.26与1.5，而scrapy已经更新到2.4…对于英语不好的人来说阅读英文文档确实是一
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。