![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫遇到的坑
liangming666
这个作者很懒,什么都没留下…
展开
-
使用scrapy框架爬取谷歌搜索结果的所有需要的表格
这里写自定义目录标题爬虫操作的基本原理爬虫需要完成的逻辑内容html语言简单介绍利用Python得到网页原码urllib.requestrequests从网页原码中提取所需信息利用beautifulsoup提取所需信息利用正则表达式提取所需信息利用scrapy中的Xpath提取所需信息从网页中提取一个表格爬谷歌需要完成的一些设置设置user-agent设置proxy设置爬虫延时利用scrapy框架完成google搜索结果中所需样本的提取介绍scrapy框架prase内容实现pipeline内容实现Item内原创 2020-08-11 10:58:09 · 1066 阅读 · 0 评论 -
scrapy出现IndentationError: unexpected indent有关的两处错误的解决办法
在使用scrapy的过程中,由于需要动态爬取网页,因此在循环中加入如下代码,随后出现下述报错 代码如下: yield scrapy.Request(site, callback = self.parse_other_web, dont_filter=True) 报错如下: pthon版本为:* Python3.7.4和python3.8.3 scrapy版本为: Scrapy 2.2.1 以下代码可以重现此问题 import ast import inspect from textwrap import原创 2020-08-02 16:44:22 · 613 阅读 · 2 评论