python初学者是怎么写爬虫的？(16行代码爬百度)(1)

面试秘籍Java

于 2024-04-03 22:21:08 发布

阅读量758

点赞数 7

分类专栏： 2024年程序员学习文章标签： python 爬虫百度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60707606/article/details/137359181

版权

html = requests.get(url,headers=headers).text

print(html)

然后，我们再从HTML里面找出我们想要的

在这里插入图片描述

可以看爬下来的数据也可以使用谷歌浏览器的F12

这里已谷歌的F12为例

在这里插入图片描述

可以发现，div标签中

class为’result c-container '的为非百度，非广告的内容(我们需要的内容)
class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)
class为其它的都为广告

首先定义筛选

soup = BeautifulSoup(html, ‘html.parser’)

使用for循环找出所有div标签，且class为’result c-contain

最低0.47元/天解锁文章

面试秘籍Java

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python初学者是怎么写爬虫的？(16行代码爬百度)(1)

d移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算**class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)可以看爬下来的数据也可以使用谷歌浏览器的F12。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。