爬取网站内容-学习01

杨DaB

已于 2024-01-17 22:13:27 修改

阅读量272

点赞数 1

分类专栏：其他学习文章标签：学习 python 开发语言

于 2023-09-11 20:19:45 首次发布

本文链接：https://blog.csdn.net/qq_44896379/article/details/132816456

版权

其他学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

说明：

爬取网站页面的相关内容

简述

工具条件

工具：Visual Studio Code，PyCharm 2023.2.1
语言：python
库：requerts

requests

requests是Python中一个流行的HTTP客户端库，用于发送所有类型的HTTP请求。它简单易用，功能强大，支持多线程，并且有多种身份验证和cookie处理机制。
requests不是Python标准库的一部分，需要使用pip install requests来安装。

GET请求：

import requests

response = requests.get('https://www.example.com')
print(response.text)

POST请求：

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://www.example.com', data=payload)
print(response.text)

POST请求带JSON数据

import requests

payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://www.example.com/api', json=payload)
print(response.text)

自定义请求头

import requests

headers = {'User-Agent': 'my-app/0.0.1'}
response = requests.get('https://www.example.com', headers=headers)
print(response.text)

爬取网站相关内容，确定需要的网址，现以www.baidu.com为例；

代码

import requests

def simple_crawler(url):
    try:
        response = requests.get(url)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except requests.exceptions.RequestException as err:
        print("Error: ", err)
        return None

if __name__ == "__main__":
    url = "https://www.baidu.com"  #替换成要爬取的网页URL
    content = simple_crawler(url)
    if content:
        print(content)
        
    # 打开一个文件以写入，如果文件不存在，它将被创建
    # 'w' 参数表示写入模式
    with open('output.txt', 'w') as file:
        # 写入一些文本到文件
        file.write(content)

  # 当您使用 'with' 语句时，文件会在代码块结束时自动关闭