Python
互联网砖瓦匠
这个作者很懒,什么都没留下…
展开
-
python fake_useragent 报错问题解决方法
这个问题的原因是因为请求不到这个网址,然后导致无法下载fake_useragent_0.1.11.json 这个文件一般来说这个json存储在tmp文件夹下边 因为系统会定时清除tmp文件的内容,所以建议像示例那样放到其他文件夹。首先是因为缺少了这个json 导致远程下载时访问网址然后访问不到 无法下载 导致的 ,所以我们可以手动下载这个json 放到指定目录。wget https://...原创 2020-01-03 10:31:07 · 2656 阅读 · 3 评论 -
Python 使用xpath匹配html内容并生成CSV文件
#-- coding: utf-8 --import osimport reimport csvfrom lxml import html#生成CSV文件def get_list_dir(): headers = ('标题', '内容', '来源', '时间', '作者') with open('D:/Python/PythonProjects/TestDemo/art...原创 2020-01-03 10:05:06 · 290 阅读 · 0 评论 -
Scrapy爬虫使用布隆过滤过滤重复URL scrapy-redis-bloomfilter-block-cluster redis集群化
Scrapy爬虫使用布隆过滤过滤重复URL scrapy-redis-bloomfilter-block-cluster redis集群化首先安装布隆过滤器设置爬虫的settings.py首先安装布隆过滤器pip install scrapy-redis-bloomfilter-block-cluster设置爬虫的settings.py# 确保使用此调度程序SCHEDULER = "sc...原创 2019-12-12 15:32:12 · 817 阅读 · 0 评论