使用python爬取网上数据

最新推荐文章于 2024-09-15 22:31:42 发布

db_lh_2023

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量98

点赞数

文章标签： python

本文链接：https://blog.csdn.net/lh_12154/article/details/135185995

版权

本文详细介绍了如何使用Python进行网页数据爬取，包括选择合适的库（如requests和BeautifulSoup）、发送HTTP请求、解析HTML内容、定位数据并保存。同时强调了遵守法律法规和道德规范的重要性。

摘要由CSDN通过智能技术生成

本文将介绍如使用python爬取网上数据，并介绍爬虫的知识和如何爬取，Python爬虫是一种自动化获取互联网信息的技术，它可以自动化地获取互联网上的各种数据、信息，例如网页内容、图片、视频、音频等广泛用途，可以为我们提供便捷的数据采集和分析手段。

使用Python进行网页数据爬取通常步骤：

1.选择合适的库

2.发送HTTP请求

3.解析HTML内容

4.定位和处理数据

5.保存爬取数据

这些是进行网页数据爬取的基本步骤，在进行实际爬取之前，务必遵守相关法律法规和道德规范建议先了解相关的法律法规和规范，并选择合法、合规的爬取方式。

一、选择合适的库

Python有许多用于网页爬取的库，包括BeautifulSoup、requests等。根据你的需求选择合适的库，导入所需库，首先需要导入requests和BeautifulSoup库。如果没有安装这两个库，可以使用pip命令进行安装。打开命令提示符输入pip命令回车即可自动安装，pip install requests、pip install beautifulsoup4。

二、发送HTTP请求

发送请求：使用requests库向目标网站发送HTTP请求，获取网页的HTML内容。可以使用GET或POST方法来获取网页数据。

下面演示网页网址：豆瓣电影 Top 250https://movie.douban.com/top250

# 请求豆瓣电影Top250页面
url = "https://movie.douban.com/top250"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
    'cookie':
response = requests.get(url, headers=headers)
html = response.text

三、解析HTML内容

使用BeautifulSoup等库解析HTML内容，提取出需要的信息，这样就可以从网页中提取出所需的数据。另外在Python中，主要的HTML解析方法有四种：使用正则表达式、BeautifulSoup、lxml的XPath以及json模块。

打开目标网页，可以通过F12打开网页自带的调式功能，提取出需要爬取的信息内容。

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")

四、定位和处理数据

分析网页结构，可以找到我们要爬取的数据的标签和属性，对获取到的数据进行处理，然后将数据存储到文件、数据库或内存中，以便后续的分析和使用，在Python中可以使用BeautifulSoup等库来解析HTML或XML文档，并从中提取所需的数据，例如可以获取文本内容、获取属性值等。

五、保存爬取数据

在Python中，可以使用pandas库来将爬取到的数据保存到Excel表格中。pandas是一个功能强大的数据处理库，可以方便地进行数据读取、处理和存储。首先需要安装pandas和openpyxl库，导入pandas库。2.创建一个空的DataFrame。3.将电影名称和评分添加到DataFrame中。4.使用to_excel()方法将DataFrame保存为Excel文件。

import pandas as pd

# 创建一个空的DataFrame
df = pd.DataFrame(columns=["电影名称", "评分"])

# 提取行尸走肉的相关信息
for item in soup.find_all("div", class_="item"):
title = item.find("span", class_="title").text
rating = item.find("span", class_="rating_num").text
print(f"电影名称：{title}，评分：{rating}")

# 将电影名称和评分添加到DataFrame中
df = df.append({"电影名称": title, "评分": rating}, ignore_index=True)

# 将DataFrame保存为Excel文件
df.to_excel("豆瓣电影Top250.xlsx", index=False)

运行代码后，会在当前目录下自动生成一个名为"豆瓣电影Top250.xlsx"的Excel文件，其中包含了电影名称和评分信息，这样我们想要的数据已经全部爬取到Excel文件中了。

六、需要注意的方面

在进行数据爬取时，务必遵守相关的法律法规，尊重知识产权、个人隐私和其他相关法律法规，需要尊重网站的规则和用户利益，合法合规地进行数据获取和使用。

七、完整的代码展示

import requests
import pandas as pd
from bs4 import BeautifulSoup


# 请求豆瓣电影Top250页面
url = "https://movie.douban.com/top250"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
html = response.text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")


# 创建一个空的DataFrame
df = pd.DataFrame(columns=["电影名称", "评分"])


# 提取行尸走肉的相关信息
for item in soup.find_all("div", class_="item"):
    title = item.find("span", class_="title").text
    rating = item.find("span", class_="rating_num").text
    print(f"电影名称：{title}，评分：{rating}")

    # 将电影名称和评分添加到DataFrame中
    df = df.append({"电影名称": title, "评分": rating}, ignore_index=True)

# 将DataFrame保存为Excel文件
df.to_excel("豆瓣电影Top250.xlsx", index=False)