python初学者是怎么写爬虫的？(16行代码爬百度)，深入理解JVM的核心知识点

最新推荐文章于 2024-04-23 18:06:15 发布

苹果Android开发组

最新推荐文章于 2024-04-23 18:06:15 发布

阅读量627

点赞数 25

分类专栏： 2024年程序员学习文章标签： python 爬虫 jvm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61369275/article/details/136974187

版权

这篇博客通过16行Python代码展示了如何使用requests和BeautifulSoup库抓取百度搜索的HTML内容。作者强调了在抓取数据时如何筛选出非广告和非百度自家的内容，并提供了学习资源选择和学习计划制定的建议，包括一套全面的Python爬虫学习资料。

摘要由CSDN通过智能技术生成

F5运行如果不报错则说明安装成功。

打开浏览器，输入'www.baidu.com'，即进入百度，随便搜索什么，我这里用'python'为例

可以发现，百度搜索出来的链接为

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=python****

最后可以简化为:

https://www.baidu.com/s?wd=python

所以首先尝试获取搜索结果的html:

import requests

from bs4 import BeautifulSoup

url=‘https://www.baidu.com/s?wd=’+‘python’

headers = {“Accept”:“text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9”,“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.16 Safari/537.36”}

html = requests.get(url,headers=headers).text

print(html)

然后，我们再从HTML里面找出我们想要的

最低0.47元/天解锁文章

苹果Android开发组

关注

25
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python初学者是怎么写爬虫的？(16行代码爬百度)，深入理解JVM的核心知识点

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)class为’result c-container '的为非百度，非广告的内容(我们需要的内容)，即进入百度，随便搜索什么，我这里用。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

664: 原创

-: 周排名

-: 总排名

44万+: 访问

: 等级

1万+: 积分

6595: 粉丝

9704: 获赞

6: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

ARM架构编译python3
军哥说AI: - 非常欣赏博主的博客，每一篇都充满了智慧和深度。博主文笔流畅自然，能够轻松驾驭复杂的技术话题，将其转化为通俗易懂的语言。同时，您还善于结合实践经验和前沿技术，为我们提供了宝贵的参考和启示。每次阅读您的博客，我都能从中获得新的启发和收获，三连支持博主创作出更加优秀的文章，要是博主能对我的文章指点一下更好了，非常感谢大佬对我的帮助和支持！
第六篇【传奇开心果系列】Python微项目技术点案例示例：庖丁解牛tkinter
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第六篇【传奇开心果系列】Python微项目技术点案例示例：庖丁解牛tkinter
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Java利用TCP协议实现客户端与服务器通信【附通信源码】
m0_64727829: 客户端的呢
React+Ts+Node(1)，web开发前端，web前端开发职业
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/618352039。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。