网络爬虫
波波子
这个作者很懒,什么都没留下…
展开
-
安装Scrapy时遇到timeout的错误该怎么办
今天学习到了使用Scrapy框架写网络爬虫,需要安装这个包,但是因为这个包太大了,很容易出现Timeout的错误导致pip安装失败,我看的教材里面建议使用Anaconda来安装这个包,但是因为我比较懒,不想安装Anaconda,所以在网上查了一些资料,成功用pip安装了Scrapy。首先,我们登上pypi官网,搜索Scrapy的说明,找到最新版本,可以看到这个包用pip安装的代码:pip install Scrapy3但是,直接这样安装也可能出现问题,因为这个包要求安装其他一系列的包,要求安装的一般原创 2020-08-31 22:58:39 · 969 阅读 · 0 评论 -
网络爬虫urllib.error.HTTPError: HTTP Error 403: Forbidden的问题方法
今天学习《Python网络爬虫权威指南》第三章的时候,在写爬取wiki网站的代码时遇到了问题:urllib.error.HTTPError: HTTP Error 403: Forbidden。通过在网上查阅资料,问题出在了我们直接urlopen提出访问申请是非正常的申请,缺少网站需要的信息,会被拒接访问:之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系原创 2020-08-16 00:12:48 · 12292 阅读 · 0 评论 -
BeautifulSoup的find_all()函数的attributes参数的小发现
我在学习《Python网络爬虫权威指南》的时候,学习到关于介绍find_all()函数的参数的内容,里面介绍到属性参数attributes时介绍了其中一种用法:.find_all('span', {'class':{'green', 'red'}})这个函数会返回HTML文档里面红色和绿色两种颜色的span标签。我就想试试不用大括号是否有同样的结果:原本代码...原创 2020-08-15 17:02:07 · 1235 阅读 · 1 评论