Python爬虫
文章平均质量分 64
秦时明月之君临天下
道阻且长,行则将至。
展开
-
Python爬虫:js的btoa和atob和pythonBase64编码解码比对分析
比对js和py的Base64编码解码,探求一个共通之处。转载 2024-05-22 23:31:53 · 372 阅读 · 0 评论 -
XPath简介及语法
## XPath 简介XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。## XPath 语法XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。原创 2022-12-17 18:51:44 · 391 阅读 · 0 评论 -
Python爬虫‘utf-8‘ codec can‘t decode byte 0x83 in position 0: invalid start byte 的解决方案
今天用Python爬取豆瓣的时候,发现报错“UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x83 in position 1:invalid start byte”。本地接收压缩格式的数据,服务器传过来压缩格式gzip的文件,而解压这种gzip文件只能用deflate算法,浏览器能够自动解压,程序却不能自动解压gzip,需要额外进行设置才行。然后发现不管我怎么转码都还是乱码,然后网上搜了下,发现好像是因为请求头的原因导致的。原创 2022-11-05 21:01:37 · 1816 阅读 · 1 评论 -
Python读取json文件时报错:TypeError:the Json object must be str, bytes or bytearray,not ‘TextIOWrapper’
主要涉及到Python的json库的四个方法:dumps和loads、dump和load的应用。原创 2019-10-10 00:06:18 · 12735 阅读 · 0 评论 -
Python爬虫基础--爬取王者荣耀英雄皮肤图片
因为我们可以很简单就从官网获取英雄列表的json数据,所以这里的主要工作是解析json,然后拼接对应的英雄的皮肤的URL,最后进行下载。原创 2019-09-16 12:43:30 · 5002 阅读 · 0 评论 -
Python BeautifulSoup4 取值部分
爬虫的基本步骤一般是:审查网页元素,找到对应标签,获取对应值。这篇文章讲的就是“获取对应值”内容,利用Python 的BeautifulSoup4库获取标签的标签名、标签的属性名以及标签的值。转载 2019-09-15 19:28:52 · 1277 阅读 · 0 评论