python
yangxinhu_coder
这个作者很懒,什么都没留下…
展开
-
网络爬虫之网页URL去重的5种方法详解
对网络爬虫有一定了解的小伙伴们应该都知道,网络爬虫在爬取信息的时候,为了避免爬虫爬到重复数据、爬虫陷入死循环等问题,我们就需要对URL去重。 目录 1、什么是URL去重? 2、为什么要进行URL去重? 2.1、先了解爬虫的基本框架: 2.2、URL为什么会重复,爬虫又为什么会陷入死循环? 3、URL去重的5种方式 3.1、列表 3.2、set集合 3.3、set+md5 ...原创 2019-10-13 14:44:24 · 6779 阅读 · 0 评论 -
错误:File "/root/anaconda3/lib/python3.7/site-packages/pyspider/run.py", line 231 async=True, get_
python3.7 安装使用pyspider模块 遇到报错: File "/root/anaconda3/lib/python3.7/site-packages/pyspider/run.py", line 231 async=True, get_object=False, no_input=False): 找了半天原来是因为python3.7不支持async做变量。在python3....原创 2019-10-11 17:55:52 · 5434 阅读 · 0 评论 -
ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator
python3.7 使用 pyspider模块报错ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator 下载pyspider模块后,使用 pyspider all 命令出现上述错误。 解决方式: 找到如上图所示的文件(由于python安装的位...原创 2019-10-11 19:16:13 · 1105 阅读 · 0 评论