python爬虫学习（基础简介、requests模块）

最新推荐文章于 2023-05-30 21:27:40 发布

李济雄

最新推荐文章于 2023-05-30 21:27:40 发布

阅读量1.1k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_43496130/article/details/104274729

版权

本文介绍了Python爬虫的基础知识，包括爬虫的定义、价值和合法性，强调了避免违法的注意事项。接着讲解了爬虫的分类、反爬与反反爬策略，以及robots.txt协议。重点探讨了http和https协议，并详细阐述了requests模块的使用，包括编码流程和实战应用。最后，通过实例分析展示了如何通过requests模块应对动态加载的网页数据。

摘要由CSDN通过智能技术生成

什么是爬虫

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取公开数据的过程；

爬虫的价值

现在是数据的时代，谁掌握了数据也就掌握了未来，爬虫是快速获得海量数据的有效方法；

爬虫的合法性

爬虫在法律中是不被禁止的；
具有违法风险；

几种可能造成违法的情况

爬虫干扰了被访问网站的正常运营；
爬虫抓取了受到法律保护的特定类型的数据或信息；
窃取企业个人后台数据的是违法的；

如何避免

时常的优化自己的程序，避免干扰被访问网站的正常运行；
及时检查爬去的数据；

爬虫在使用场景中的分类

通用爬虫
抓取系统的主要组成部分。抓取的是一整张页面数据；
聚焦爬虫
是建立在通用爬虫的基础之上的。抓取的页面中特定的局部内容；
增量是爬虫
监测网站中数据更新的情况，只会抓取网站中最新更新出来的数据；

爬虫的矛与盾

反爬机制

门户网站，可以通过制定相应的策略或技术手段，防止爬虫程序进行网站数据的爬取；

反反爬策略

破解网站中的反爬机制，从而获取相关信息；

robots.txt协议

君子协议，规定了网页中哪些数据可以被爬虫爬取，哪些不可以被爬取；
如何查询一个网站的robots.txt协议，如下所示，查询淘宝网页中的robots.txt协议：

https://taobao.com/robots.txt

http协议和https协议

http协议

概念：解释服务器和客户端进行数据交互的一种形式；
常用请求头信息：
==Users-Agent：==请求载体的身份识别，包括pc的信息、使用浏览器的版本等等的信息；
==Connection：==请求完毕后是断开连接还是保持连接；
常用响应头信息：
==Content-Type：==服务器响应回客户端的数据类型；

https协议

安全的超文本传输协议
加密方式：
对称密钥加密；
非对称密钥加密；
证书密钥加密；

requests模块

什么是requests模块

python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高；
==作用：==模拟浏览器发请求；

如何使用（requests模块的编码流程）

指定url；
发起请求；
获取响应数据；
持久化存储；

环境安装

pip install requests

实战编码

需求：爬取搜狗首页的页面数据：

# 需求：爬取搜狗首页的页面数据
import requests

if __name__ == '__main__':
    # step1：指定url(在WWW上，每一信息资源都有统一的且在网上唯一的地址，该地址就叫URL)
    url = 'https://www.sogou.com'
    # step2：发起请求
    # get方法会返回一个响应对象
    # get方法中的几个参数：
	    # :param url: URL for the new :class:`Request` object.
	    # :param params: (optional) Dictionary, list of tuples or bytes to send
	    #     in the query string for the :class:`Request`.
	    # :param \*\*kwargs: Optional arguments that ``request`` takes.
	    # :return: :class:`Response <Response>` object
	    # :rtype: requests.Response
    response = requests.get(url=url)
    # step3：获取响应数据
    page_text = response.text

    # print(page_text)
    # step4：持久化存储
    with open('./sogou.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取结束')

需求：爬取搜狗指定词条对应的搜索结果页面（简易页面采集器）

# 需求：爬取搜狗指定词条对应的搜索结果页面（简易页面采集器）
# 
# UA检测：门户网站的服务器会监测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器
#        就说明这是一个正常的请求。但是如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示
#        该请求为不正常的请求（爬虫），则服务器端就很有可能拒绝该次请求。
#        为了让我们的请求每次都能得到允许，需要进行UA伪装

# UA伪装（反反爬机制）：让爬虫对应的请求载体身份标识伪装成某一款浏览器

# UA：User-Agent（请求载体的身份识别）
import requests

if __name__ == '__main__':
    # step1：指定url
    # url的格式为'https://www.xxxxx.com/wed?query=需要搜索的关键字'
    # url = 'https://www.sogou.com/web?query=爬虫学习'

    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
   'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.1.2 Safari/605.1.15'}

    url = 'https://www.sogou.com/web'
    kw = input('输入一个关键字：')
    # 处理url携带的参数：封装到字典中
    param = {
   'query': kw}

    # step2：发起请求
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers)

    # step3：获取响应数据
    page_text = response.text

    print(page_text)
    # step4：持久化存储
    filename = kw + '.html'
    with open(filename