![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 64
武帝为此
青山霁后云犹在,画出东南四五峰。
展开
-
【Python urllib详解】
从Python 3.x开始,urllib被重新组织,合并了urllib和urllib2的功能,分为几个子模块(urllib.request, urllib.parse, 等等)。虽然urllib非常强大,但它的接口相对底层,对于复杂的网络请求处理或者需要高级功能(如连接重用、会话管理、代理支持等),可能不够方便或高效。Python的urllib库由几个子模块组成,每个模块都承担着特定的功能,这些功能共同支持处理URL和网络通信的需求。在某些情况下,需要根据需要修改URL的某些部分,如路径或查询参数等。原创 2024-06-29 10:34:11 · 1089 阅读 · 0 评论 -
【爬取研招网指定学校专业信息】
本文介绍了如何使用 Python 的 requests 库和 BeautifulSoup 库来爬取研究方向信息,并将其保存为 CSV 文件。爬取的网站为“中国研究生招生信息网”(https://yz.chsi.com.cn/)。代码从指定的专业目录页面爬取研究方向的相关信息,并保存为 CSV 文件。原创 2024-04-22 20:47:02 · 289 阅读 · 0 评论 -
【爬虫中的代理IP分类与应用】
匿名代理IP会隐藏你的真实IP地址,但仍然会传递一些HTTP头信息,使得目标网站知道你在使用代理。这种代理适用于一些需要隐藏身份但不需要高度隐私的场合。高匿代理是最隐私的代理类型,它会完全隐藏你的真实IP地址和HTTP头信息,使得目标网站无法追踪你的身份。如果需要采集一些敏感数据或频繁访问目标网站,可以选择使用高匿代理IP,以保护你的隐私和稳定性。与HTTP代理类似,但支持HTTPS协议,更安全,适用于需要访问加密网站的任务。这些代理IP位于国内,访问国内网站速度更快,适用于需要抓取国内数据的任务。原创 2024-03-10 10:52:55 · 622 阅读 · 0 评论 -
【爬虫解决HTTPS证书认证问题】
HTTPS证书认证问题是指当通过Python爬虫访问一个使用HTTPS协议的网站时,由于该网站的SSL证书无效或不被信任,Python请求库(如requests)会抛出SSL证书验证错误。这种情况下,默认的HTTP请求无法继续,因此需要解决证书认证问题以继续访问目标网站。另一种解决方法是导入自定义证书。通常用于内部网站或需要特定证书的情况。将证书文件下载到本地,然后使用cert参数来指定证书文件的路径。# 指定证书文件路径# 发送请求时使用自定义证书# 输出响应内容。原创 2024-01-26 10:57:53 · 678 阅读 · 0 评论 -
【爬虫代理服务器】
爬虫代理服务器是一种用于网络爬取的工具,它充当爬虫与目标网站之间的中间人,将请求和响应转发。它的作用主要有两个方面:隐匿爬虫的真实身份和提供更稳定的网络环境。通过使用代理服务器,我们能够避免频繁请求导致的封IP,实现更高效的数据采集。原创 2023-08-22 09:33:08 · 611 阅读 · 0 评论 -
【请求头(Headers)详解】
HTTP请求头,简称请求头,是HTTP协议传输过程中规定的一组键值对,用来描述客户端的环境信息、请求偏好或身份验证等。请求头是HTTP请求的一部分,包含了操作系统、浏览器类型、请求方法(GET,POST等)、语言等信息。服务器根据这些信息来处理请求并生成适当的响应。原创 2023-08-22 09:18:32 · 6192 阅读 · 0 评论 -
Selenium 简介
Selenium 是一个强大的自动化测试框架,可以模拟用户在浏览器中的操作,用于网站测试、数据抓取等应用场景。本文介绍了 Selenium 的入门和应用,包括 Selenium 的基础知识、环境搭建、API 介绍、示例代码和项目实战代码。希望本文能够帮助读者了解 Selenium 并在实际项目中应用它。原创 2023-05-10 09:57:45 · 248 阅读 · 0 评论 -
Python 爬虫从入门到精通
爬虫用来自动获取网络上信息。Python因其丰富的第三方库和易读性,成为了爬虫开发的热门选择。原创 2023-05-08 21:23:06 · 1696 阅读 · 0 评论