爬虫
Honyelchak
没有“不可能”!
展开
-
chrome捕获大响应失败:Failed to load response data: request content was evicted from inspector cache
问题描述需求是: 通过调整请求参数(rows),来一次性查询所有数据,最后将数据保存下来。出现问题: 问题是响应的数据过大,chrome浏览器报错:解决方案使用cURL来发送该请求。推荐使用Firefox来复制cURL在windows中,powershell不是太好用,所以可以直接在git bash里边粘贴cURL命令,最后记得在命令后边加上要存储的文件路径以及文件名> xxxx.json回车就可以了!...原创 2022-03-28 13:11:15 · 14717 阅读 · 2 评论 -
请求网站响应的文本带有乱码,原来是Content-encoding惹的祸,一文带你搞懂`Content-encoding`、`Accept-Encoding`
请求网站响应回的文本带有乱码,Content-encoding:gzip今天写爬虫请求网站后,返回的数据中有乱码,怎么转都转不了。后来研究了一番,应该是Content-encoding惹的祸:废话少说:先说解决方案,然后再说原理。一、解决方案:第一种:把请求头Accept-Encoding去掉//map.put("Accept-Encoding", "gzip, deflat...原创 2020-03-24 22:49:03 · 7442 阅读 · 2 评论 -
Java正则表达式正确,find()方法返回false,可能是因为\s无法匹配空格
Java正则表达式正确,但\s无法匹配空格\s的介绍上边说的是匹配空格,但是我今天爬取页面之后用正则表达式提取信息时:用\s去无法完成空格的匹配。空格的种类半角空格\u0020英文半角空格具有换行的效果,会出现不期望的换行现象;可以通过正则表达式\s进行匹配全角空格\u3000不可通过正则表达式\s进行匹配不间断空格\u00A0主要用途用于禁止自动换行...原创 2020-03-24 22:07:38 · 904 阅读 · 0 评论 -
Java爬取中国天气网实况天气数据
因实验室需求,需要找一个实况天气API。百度云、阿里云、腾讯云上边我都去找了,很多平台要么没有,要么要收费(免费的可调用次数太少了)。而我在高德开放平台上找到了一个,但是不符合要求,被老师pass掉了。百度搜一下,基本上都是用Python自动化测试Selenium写的,那也太没意思了吧。找不到,那我只好自己写一个爬虫去爬取了。分析如果想在中国天气网上爬取实况天气还是很简单的,但是由于思路一...原创 2019-01-04 11:55:55 · 6312 阅读 · 4 评论