用BeautifulSoup轻松搞定网页

原创于 2025-07-30 18:29:52 发布 · 992 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#beautifulsoup

数据抓取如果你想从网页上抓点数据，比如排行榜、新闻啥的，那BeautifulSoup这工具可得好好学学。

它就像个智能小助手，能帮你把网页里乱七八糟的代码捋清楚，轻松拿到想要的信息。 ## 先把工具装起来这玩意儿不是Python自带的，得自己动手装一下。打开命令行，敲两行代码就行：

pip install BeautifulSoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

装完了还能测试下好不好使，在Python里输入几行简单的命令，要是能输出"Hello"，那就成了。

解析器选哪个？用BeautifulSoup得配个解析器，就像开车得有方向盘一样。

常见的有这么几种：

- Python标准库：不用额外装，速度一般，对付普通网页够用

- lxml HTML解析器：速度快，解析能力强，但得装个C语言库

- lxml XML解析器：专门对付XML文件的，同样要装C语言库

- html5lib：容错性最好，跟浏览器解析方式一样，但速度慢点一般情况下，用lxml就挺合适，又快又好用。

基本操作很简单网页里的内容都是用各种标签包起来的，比如`<p>`、`<div>`、`<a>`这些。BeautifulSoup能轻松找到这些标签，还能提取里面的内容。

比如想找`<li>`标签，直接用`soup.li`就行，要是有好多个，它会返回第一个。想看看标签里的文字，加个`.string`就行，像`soup.li.string`。

标签里的属性也能轻松拿到，比如链接地址`href`，用`soup.li.a.attrs['href']`或`soup.li.a.get('href')`都能搞定，后者更不容易出错。有时候还需要找子节点、父节点或者兄弟节点，比如用`children`找所有子节点，`parent`找父节点，`next_sibling`找下一个兄弟节点，这些都很方便。

高级点的查找方法如果想找一堆符合条件的标签，`find_all()`方法就派上用场了。

比如想找所有的`<li>`标签，用`soup.find_all('li')`，返回的是个列表，想拿第几个就加个索引。还能根据属性来找，比如找class是`lavalamp-item`的标签，用`soup.find_all(class_='lavalamp-item')`就行，注意这里class后面加了个下划线，因为class是Python的关键字，不加会出错。想只拿标签里的文本，除了用`string`，还能用`get_text()`方法，它能把所有文本都取出来，连子孙节点里的都不放过。

CSS选择器更好用要是你懂点CSS选择器，那用`soup.select()`会更顺手。id选择器用`#`开头，类选择器用`.`开头，元素选择器直接写标签名。

比如想找id是`nav`的div标签用soup.select("#nav")`；想找class是`lavalamp-item`下面的`<a>`标签，用`soup.select(".lavalamp-item > a")`。用Chrome浏览器还能偷懒，右键选中元素，点"copy"再点"copy selector"，就能直接得到CSS选择器，不用自己写了。

实际案例看看效果爬取大学排名想爬中国大学排名？先获取网页内容，然后用BeautifulSoup解析。找到表格里的行和列，把学校名称、总分、排名这些信息提取出来，最后存成CSV文件，几步就搞定。

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=3):  # get请求通用函数，去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)
from bs4 import BeautifulSoup

def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []  # 解析函数输出数据的列表
    for row in soup.select("table>tbody>tr"):  # 循环遍历tr
        td_html = row.select("td")  # 获取td
        row_data = [
            td_html[1].text.strip(),  # 学校名称
            td_html[2].text.strip(),  # 总分
            td_html[3].text.strip(),  # 全国排名
            td_html[4].text.strip(),  # 星级
            td_html[5].text.strip(),  # 办学层次
        ]
        out_list.append(row_data)  # 将解析的每行数据插入到输出列表中
    return out_list
import requests
from bs4 import BeautifulSoup
import csv


def get_html(url, time=3):  # get请求通用函数，去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)


def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []  # 解析函数输出数据的列表
    for row in soup.select("table>tbody>tr"):  # 循环遍历tr
        td_html = row.select("td")  # 获取td
        row_data = [
            td_html[1].text.strip(),  # 学校名称
            td_html[2].text.strip(),  # 总分
            td_html[3].text.strip(),  # 全国排名
            td_html[4].text.strip(),  # 星级
            td_html[5].text.strip(),  # 办学层次
        ]
        out_list.append(row_data)  # 将解析的每行数据插入到输出列表中
    return out_list


def save_csv(item, path):  # 数据存储，将list数据写入文件
    with open(path, "w+", newline='', encoding="utf-8") as f:  # 创建utf8编码文件
        csv_write = csv.writer(f)  # 创建写入对象
        csv_write.writerows(item)  # 一次性写入多行


if __name__ == "__main__":
    url = "http://www.bspider.top/gaosan/"
    html = get_html(url)  # 获取网页数据
    out_list = parser(html)  # 解析网页，输出列表数据
    save_csv(out_list, "school.csv")  # 数据存储

爬取百度新闻爬百度新闻的热点要闻也差不多，找到新闻标题和链接所在的标签，提取出来存成CSV，很快就能拿到一堆新闻信息。总的来说，BeautifulSoup是个抓取网页数据的好工具，操作简单，功能强大，稍微学学就能上手，想从网页上抓点数据的话，赶紧试试吧！

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=10):  # get请求通用函数，去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)
from bs4 import BeautifulSoup

def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []
    for row in soup.select("#pane-news ul>li"):
        print(row)
        row_list = [
            row.text.replace(' ', '').replace("\n", ""),  # 新闻标题
            row.select("a")[0].attrs["href"].replace(' ', '').replace("\n", "")  # 详情链接
        ]
        out_list.append(row_list)
    return out_list
import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=10):
    try:
        r = requests.get(url, timeout=time)
        r.encoding = r.apparent_encoding
        r.raise_for_status()
        return r.text
    except Exception as error:
        print(error)

def parser(html):
    soup = BeautifulSoup(html, "lxml")
    out_list = []
    for row in soup.select("#pane-news ul>li"):
        row_list = [
            row.text.replace(' ', '').replace("\n", ""),
            row.select("a")[0].attrs["href"].replace(' ', '').replace("\n", "")
        ]
        out_list.append(row_list)
    return out_list

def save_csv(item, path):
    with open(path, "a+", newline='', encoding="utf-8") as f:
        csv_write = csv.writer(f)
        csv_write.writerows(item)

if __name__ == "__main__":
    url = "http://www.bspider.top/baidunews/"
    html = get_html(url)
    out_list = parser(html)
    save_csv(out_list, "news3.csv")