bs_4基本使用

最新推荐文章于 2023-03-06 08:51:45 发布

嘿、否定先生

最新推荐文章于 2023-03-06 08:51:45 发布

阅读量269

点赞数

分类专栏：爬虫文章标签： python 前端爬虫

本文链接：https://blog.csdn.net/qq_52700622/article/details/126985338

版权

本文介绍了如何使用BeautifulSoup4进行网页解析。首先通过`pip install bs4`进行安装，然后创建bs对象，指定html解析器。接着讲解了如何查找元素，如`find()`用于查找第一个匹配的元素，`find_all()`则返回所有匹配的元素。举例说明了如何查找class为'clearfix'的`div`元素，并提供了使用字典格式设置属性的方法。最后，展示了如何提取数据并写入到csv文件中。

摘要由CSDN通过智能技术生成

安装

pip install bs4

在这里插入图片描述 page = BeautifulSoup(resp.text,"html.parser")
把页面源代码交给 beautifulsoup 处理生成 bs对象并且制定html 解析

html.parser 如果没有会有警告这句话意思是告诉他是html

从bs对象中查找对象

find（标签，属性= ）只找第一个
findall。返回所有

page.find(“div”,class_ = “clearfix”) # class 是关键字在后面加下划线区分

import requests
from bs4 import BeautifulSoup

url = "https://www.cngold.org/qihuo/zhengzhou_all.html"
resp = requests.get(url)



page = BeautifulSoup(resp.text,"html.parser")
div = page.find("table",class_ = "hq_table1") # class 是关键字 在后面加下划线 区分
print(div)

resp.close()

另一种方法
div = page.find("table",class_ = "hq_table1") 可以用字典格式
div = page.find("table",attrs={"class":"hq_table1"})

第一次找到的数据


<table border="0" cellpadding="0" cellspacing="0" class="hq_table1" width="100%">
<thead>
<tr>
<th>品种</th>
<th>最新价</th>
<th>涨跌额</th>
<th>涨跌幅</th>
</tr>
</thead>
<tbody>
<tr class="bg">
<td><a href="//www.cngold.org/qihuo/luowengang.html" target="_blank" title="螺纹钢">螺纹钢</a></td>
<td class="JO_165681_price_1">--</td>
<td class="JO_165681_updown_1">--</td>
<td class="JO_165681_updownPercent_1">--</td>
</tr>

最低0.47元/天解锁文章

嘿、否定先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bs_4基本使用

pip install bs4把页面源代码交给 beautifulsoup 处理生成 bs对象并且制定html 解析html.parser 如果没有会有警告这句话意思是告诉他是html从bs对象中查找对象page.find(“div”,class_ = “clearfix”) # class 是关键字在后面加下划线区分另一种方法可以用字典格式第一次找到的数据如果只想要数据在进行划分再把他写入文件f = open(“caijia.csv”,mode=“w”)csvwrite
复制链接

扫一扫

专栏目录