用BeautifulSoup轻松搞定网页

数据抓取 如果你想从网页上抓点数据,比如排行榜、新闻啥的,那BeautifulSoup这工具可得好好学学。

它就像个智能小助手,能帮你把网页里乱七八糟的代码捋清楚,轻松拿到想要的信息。 ## 先把工具装起来 这玩意儿不是Python自带的,得自己动手装一下。打开命令行,敲两行代码就行:

pip install BeautifulSoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

装完了还能测试下好不好使,在Python里输入几行简单的命令,要是能输出"Hello",那就成了。

解析器选哪个? 用BeautifulSoup得配个解析器,就像开车得有方向盘一样。

常见的有这么几种:

- Python标准库:不用额外装,速度一般,对付普通网页够用

- lxml HTML解析器:速度快,解析能力强,但得装个C语言库

- lxml XML解析器:专门对付XML文件的,同样要装C语言库

- html5lib:容错性最好,跟浏览器解析方式一样,但速度慢点 一般情况下,用lxml就挺合适,又快又好用。 

基本操作很简单 网页里的内容都是用各种标签包起来的,比如`<p>`、`<div>`、`<a>`这些。BeautifulSoup能轻松找到这些标签,还能提取里面的内容。

比如想找`<li>`标签,直接用`soup.li`就行,要是有好多个,它会返回第一个。想看看标签里的文字,加个`.string`就行,像`soup.li.string`。

标签里的属性也能轻松拿到,比如链接地址`href`,用`soup.li.a.attrs['href']`或`soup.li.a.get('href')`都能搞定,后者更不容易出错。 有时候还需要找子节点、父节点或者兄弟节点,比如用`children`找所有子节点,`parent`找父节点,`next_sibling`找下一个兄弟节点,这些都很方便。

高级点的查找方法 如果想找一堆符合条件的标签,`find_all()`方法就派上用场了。

比如想找所有的`<li>`标签,用`soup.find_all('li')`,返回的是个列表,想拿第几个就加个索引。 还能根据属性来找,比如找class是`lavalamp-item`的标签,用`soup.find_all(class_='lavalamp-item')`就行,注意这里class后面加了个下划线,因为class是Python的关键字,不加会出错。 想只拿标签里的文本,除了用`string`,还能用`get_text()`方法,它能把所有文本都取出来,连子孙节点里的都不放过。

CSS选择器更好用 要是你懂点CSS选择器,那用`soup.select()`会更顺手。id选择器用`#`开头,类选择器用`.`开头,元素选择器直接写标签名。

比如想找id是`nav`的div标签用soup.select("#nav")`;想找class是`lavalamp-item`下面的`<a>`标签,用`soup.select(".lavalamp-item > a")`。 用Chrome浏览器还能偷懒,右键选中元素,点"copy"再点"copy selector",就能直接得到CSS选择器,不用自己写了。

 实际案例看看效果 爬取大学排名 想爬中国大学排名?先获取网页内容,然后用BeautifulSoup解析。找到表格里的行和列,把学校名称、总分、排名这些信息提取出来,最后存成CSV文件,几步就搞定。

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=3):  # get请求通用函数,去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)
from bs4 import BeautifulSoup

def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []  # 解析函数输出数据的列表
    for row in soup.select("table>tbody>tr"):  # 循环遍历tr
        td_html = row.select("td")  # 获取td
        row_data = [
            td_html[1].text.strip(),  # 学校名称
            td_html[2].text.strip(),  # 总分
            td_html[3].text.strip(),  # 全国排名
            td_html[4].text.strip(),  # 星级
            td_html[5].text.strip(),  # 办学层次
        ]
        out_list.append(row_data)  # 将解析的每行数据插入到输出列表中
    return out_list
import requests
from bs4 import BeautifulSoup
import csv


def get_html(url, time=3):  # get请求通用函数,去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)


def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []  # 解析函数输出数据的列表
    for row in soup.select("table>tbody>tr"):  # 循环遍历tr
        td_html = row.select("td")  # 获取td
        row_data = [
            td_html[1].text.strip(),  # 学校名称
            td_html[2].text.strip(),  # 总分
            td_html[3].text.strip(),  # 全国排名
            td_html[4].text.strip(),  # 星级
            td_html[5].text.strip(),  # 办学层次
        ]
        out_list.append(row_data)  # 将解析的每行数据插入到输出列表中
    return out_list


def save_csv(item, path):  # 数据存储,将list数据写入文件
    with open(path, "w+", newline='', encoding="utf-8") as f:  # 创建utf8编码文件
        csv_write = csv.writer(f)  # 创建写入对象
        csv_write.writerows(item)  # 一次性写入多行


if __name__ == "__main__":
    url = "http://www.bspider.top/gaosan/"
    html = get_html(url)  # 获取网页数据
    out_list = parser(html)  # 解析网页,输出列表数据
    save_csv(out_list, "school.csv")  # 数据存储

爬取百度新闻 爬百度新闻的热点要闻也差不多,找到新闻标题和链接所在的标签,提取出来存成CSV,很快就能拿到一堆新闻信息。 总的来说,BeautifulSoup是个抓取网页数据的好工具,操作简单,功能强大,稍微学学就能上手,想从网页上抓点数据的话,赶紧试试吧!

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=10):  # get请求通用函数,去掉了user-agent简化代码
    try:
        r = requests.get(url, timeout=time)  # 发送请求
        r.encoding = r.apparent_encoding  # 设置返回内容的字符集编码
        r.raise_for_status()  # 返回的状态码不等于200抛出异常
        return r.text  # 返回网页的文本内容
    except Exception as error:
        print(error)
from bs4 import BeautifulSoup

def parser(html):  # 解析函数
    soup = BeautifulSoup(html, "lxml")  # html转换为soup对象
    out_list = []
    for row in soup.select("#pane-news ul>li"):
        print(row)
        row_list = [
            row.text.replace(' ', '').replace("\n", ""),  # 新闻标题
            row.select("a")[0].attrs["href"].replace(' ', '').replace("\n", "")  # 详情链接
        ]
        out_list.append(row_list)
    return out_list
import requests
from bs4 import BeautifulSoup
import csv

def get_html(url, time=10):
    try:
        r = requests.get(url, timeout=time)
        r.encoding = r.apparent_encoding
        r.raise_for_status()
        return r.text
    except Exception as error:
        print(error)

def parser(html):
    soup = BeautifulSoup(html, "lxml")
    out_list = []
    for row in soup.select("#pane-news ul>li"):
        row_list = [
            row.text.replace(' ', '').replace("\n", ""),
            row.select("a")[0].attrs["href"].replace(' ', '').replace("\n", "")
        ]
        out_list.append(row_list)
    return out_list

def save_csv(item, path):
    with open(path, "a+", newline='', encoding="utf-8") as f:
        csv_write = csv.writer(f)
        csv_write.writerows(item)

if __name__ == "__main__":
    url = "http://www.bspider.top/baidunews/"
    html = get_html(url)
    out_list = parser(html)
    save_csv(out_list, "news3.csv")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值