Python 爬虫BeautifulSoup（bs4）基本使用

是半道呀

于 2022-06-30 01:36:42 发布

阅读量168

点赞数

分类专栏： Python Python爬虫文章标签： python 爬虫 beautifulsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57011777/article/details/125532489

版权

Python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

# 1 拿到页面源代码
# 2 使用bs4进行解析，拿到数据
import requests
from bs4 import BeautifulSoup
import csv

url = "http://www.xinfadi.com.cn/priceDetail.html"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.12151 SLBChan/30"

}
resp = requests.get(url, headers=headers).content

f = open("菜价.csv", mode="w")
csvwriter = csv.writer(f)

# 解析数据
# 1. 把页面源代码交给BeautifulSoup进行处理，生成bs对象
page = BeautifulSoup(resp.text, "html.parser")  # 指定html解析器
# 2 从bs对象中查找数据
# find（标签，属性=值）
# find_all(标签，属性=值)
table = page.find("thead")  # class是python的关键字
print(table)
# 拿到所有数据行
csvwriter.writerow([table])
trs = table.find_all("tr")[1:]
for tr in trs:  # 每一行
    ths = tr.find_all("th")  # 拿到每行中的所有td
    name = ths[0].text  # .text 表示拿到被标签标记的内容
    low = ths[1].text
    avg = ths[2].text
    high = ths[3].text
    gui = ths[4].text
    kind = ths[5].text
    date = ths[6].text
    csvwriter.writerow([name, low, high, gui, kind, date])

f.close()
resp.close()
print("over!!!!")

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫BeautifulSoup（bs4）基本使用

Python 爬虫BeautifulSoup（bs4）基本使用
复制链接

扫一扫

专栏目录

是半道呀 CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

54万+: 周排名

71万+: 总排名

1万+: 访问

: 等级

284: 积分

13: 粉丝

36: 获赞

22: 评论

122: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于python使用xpath爬取网页内容返回值为空列表的解决方法
Joe_cccc: 需要登录验证的就带上cookie，现在可以用用DrissionPage这个库我整个体验下来非常好
关于python使用xpath爬取网页内容返回值为空列表的解决方法
是月牙吖: 请问要爬取需要登录验证的网站，能把headers删掉吗？里面不是有个cookie
关于python使用xpath爬取网页内容返回值为空列表的解决方法
2301_79377154: import requests from lxml import etree url = 'https://desk.zol.com.cn/1920x1080/' # 2.进行UA伪装 r = requests.get(url=url) r.encoding = 'gb2312' et = etree.HTML(r.text) re = et.xpath('//dl[@class="filter-item first clearfix"]') print(re) 这种一会能获得数据，再运行就为空值，请问大佬是什么原因呀
关于python使用xpath爬取网页内容返回值为空列表的解决方法
2301_79377154: import requests from lxml import etree url = 'https://desk.zol.com.cn/1920x1080/' # 2.进行UA伪装 r = requests.get(url=url) r.encoding = 'gb2312' et = etree.HTML(r.text) re = et.xpath('//dl[@class="filter-item first clearfix"]') print(re) 大佬你好，这里一下子返回为有数据，然后过一会过来就变成空值，特别随机。这种一会有数据一会没数据的要怎么处理？
关于python使用xpath爬取网页内容返回值为空列表的解决方法
m0_69469527: 当divs=相对路径，还是空列表怎么办？求大神

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。