编码
编码日常
Honyelchak
没有“不可能”!
展开
-
请求网站响应的文本带有乱码,原来是Content-encoding惹的祸,一文带你搞懂`Content-encoding`、`Accept-Encoding`
请求网站响应回的文本带有乱码,Content-encoding:gzip今天写爬虫请求网站后,返回的数据中有乱码,怎么转都转不了。后来研究了一番,应该是Content-encoding惹的祸:废话少说:先说解决方案,然后再说原理。一、解决方案:第一种:把请求头Accept-Encoding去掉//map.put("Accept-Encoding", "gzip, deflat...原创 2020-03-24 22:49:03 · 7461 阅读 · 2 评论 -
Java正则表达式正确,find()方法返回false,可能是因为\s无法匹配空格
Java正则表达式正确,但\s无法匹配空格\s的介绍上边说的是匹配空格,但是我今天爬取页面之后用正则表达式提取信息时:用\s去无法完成空格的匹配。空格的种类半角空格\u0020英文半角空格具有换行的效果,会出现不期望的换行现象;可以通过正则表达式\s进行匹配全角空格\u3000不可通过正则表达式\s进行匹配不间断空格\u00A0主要用途用于禁止自动换行...原创 2020-03-24 22:07:38 · 905 阅读 · 0 评论 -
base64编码和解码
引言:最近做爬虫的时候,解析对方网站中自定义字体时遇到的base64解码问题,对这个一直不理解,今天学习一下,总结一下。base64Base64是一种任意二进制到文本字符串的编码方法,基于64个可打印字符来表示二进制数据的方法。例如迅雷的下载链接就就行了base64编码。迅雷专用地址:thunder://QUFodHRwOi8vc29zb2J0LmNvbS9aWg==真是文件下载链接...原创 2018-11-16 15:39:59 · 1155 阅读 · 0 评论