Python爬虫
小龙_(
关注R0 Team公众号获取更多资源
展开
-
Requests 库
如果您的应用程序等待响应的时间过长,则对您服务的请求可能会积压,您的用户体验可能会受到影响,或者您的后台作业可能会挂起。到目前为止,您已经发出了很多不同类型的请求,但它们都有一个共同点:它们都是对公共 API 的未经身份验证的请求。现在,您可以使用这种更直观的方式与基于令牌的身份验证方案(例如 GitHub 的 API 部分所需的方案)进行交互。您需要调整请求正文中发送的数据,以满足您与之交互的服务的特定需求。当您的应用想要再次连接到同一台服务器时,它将重用池中的连接,而不是建立新连接。原创 2024-09-18 20:46:28 · 436 阅读 · 0 评论 -
Python 解析
所以我们使用etree对象中的xpath方法根据xpath表达式去解析文件内容。实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中。2. 调用etree对象中的xpaht方法实现标签定位和内容获取,如果有标签有内容,也可以使用 get_text()快捷键 Ctrl + shift +x 启动。如果标签里面只有内容可以使用,string方法。属性定位:tag[@attr=value]如果标签里面还有标签就会输出None。添加 Limit 是选择前几个。索引定位:tag[索引]原创 2024-09-18 20:45:07 · 284 阅读 · 0 评论 -
python3 URllib 库
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用操作系统及版本、CPU 类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。第一次 本地 ,第二次挂的代理。添加User-Agent。urlencode 编码。GET请求 并写入文件。原创 2024-09-18 20:44:21 · 252 阅读 · 0 评论