爬虫
时代在召唤r
时代在召唤r
展开
-
scrapy 出现INFO: Ignoring response <500 xxx>: HTTP status code is not handled or not allowed
scrapy 出现INFO: Ignoring response <500 xxx>: HTTP status code is not handled or not allowed我寻思500是服务器错误,肯定是没有数据返回的。但是:本机使用curl xxx是有数据返回的。使用requests.get模块也是有数据的,然后打印了下status_code发现是500.遂在settings中添加了HTTPERROR_ALLOWED_CODES = [500]发现是ok的。...原创 2021-05-10 13:58:09 · 446 阅读 · 0 评论 -
scrapy去重与scrapy_redis去重与布隆过滤器
原文:scrapy去重与scrapy_redis去重与布隆过滤器在开始介绍scrapy的去重之前,先想想我们是怎么对requests对去重的。requests只是下载器,本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列,判断抓取的url是否在其中,如下:crawled_urls = set()def check_url(url): if url not in crawled_urls: return True return F.转载 2020-11-30 19:24:50 · 326 阅读 · 0 评论 -
scrapy 修改为scrapy_redis后parse无反应
原因:REDIS_URL写错REDIS_URL = 'redis://root:z_2014@192.168.1.1:6380/1'REDIS_URL 即 //用户名:密码@ip:port/表原创 2020-01-06 11:26:52 · 740 阅读 · 0 评论 -
scrapy 中修改图片的名称
在原来下载图片基础上:1.在设置文件中定义好图像名称字段IMAGES_NAME_FIELD = 'image_names'2.在images.py文件中修改名称类变量中添加:DEFAULT_IMAGES_URLS_FIELD = 'image_urls'DEFAULT_IMAGES_RESULT_FIELD = 'images'IMAGES_NAME_FIELD = '...原创 2019-12-19 13:56:32 · 440 阅读 · 0 评论 -
BeautifulSoup 解析总结
持续更新1.并列标签的所有内容soup.find_all(['p', 'div'])原创 2019-12-18 15:58:59 · 418 阅读 · 0 评论 -
BeautifulSoup的解析器,没有解析表格?
之前一般解析用的html.parser这次正文后附带表格,打印后发现没有表格内容,查询后换成html5lib就ok了,原因后续添加原创 2019-12-17 15:10:45 · 252 阅读 · 0 评论 -
urllib.error, status_code:405
req = requests.post(surl, headers=header, data=data, timeout=(5, 10))报405,检查了下header和data没毛病,查了一圈是请求方式错了req = requests.get(surl, headers=header, data=data, timeout=(5, 10))...原创 2019-11-28 11:30:19 · 375 阅读 · 0 评论 -
python3 爬虫data不起作用
刚开始这么写的request_payload = {"flightWay": "管", "classType": "ALL"}response = requests.post(url, data=json.dumps(request_payload), headers=headers).text得出的结果和笔者想要的不同然后这样子改的就阔以了...原创 2019-11-04 13:59:32 · 692 阅读 · 0 评论 -
requests 返回 521
记录下,免得忘,菜鸟一只,有问题请指出目录方法一 要是你只爬取一次,可以手动获取cookie 方法二 使用exejs执行js代码返回cookie方法三 seleniumreq = requests.get(surl, headers=header, timeout=10)打印req.status_code是521, 查了下,是js加密cookie的手...原创 2019-02-26 14:43:02 · 3231 阅读 · 2 评论