python基础爬虫(学习笔记版)

远离Bug。

已于 2023-05-15 09:00:07 修改

阅读量173

点赞数 2

文章标签：爬虫学习笔记

于 2023-05-15 00:49:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZHU1640182189/article/details/130675595

版权

该文介绍了使用Python的requests库进行网页爬取的基本步骤，包括导入requests模块，设置User-Agent以模拟浏览器访问，指定URL并发送GET请求，然后将获取的网页文本保存到本地HTML文件中。

摘要由CSDN通过智能技术生成

-Step1:导入requests模块
import requests
-Step2:进行URL指定以及ua封装
url=‘想要爬取的指定url’
headers={在网页上打开开发者工具，找出对应的user—agent}
对应格式:headers={‘user—agent’:‘xxxxx’}
-Step3:进行requests请求
response=requests.get(url=url,headers=headers)
page_text=response.text
-Step4:进行持续化存储
with open(‘./文件名.html’,‘w’,encoding=‘utf-8’)as fp:
fp.write(page_text)
最后打印提示
print(‘over’)
完整流程以爬取百度首页源码为例:

// 百度爬取首页爬取示例
#requests模块导入
import requests
#UA伪装
headers = { 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)'}
#指定url
url='http://www.baidu.com'
#进行requests请求url
response=requests.get(url=url,headers=headers)
page_text=response.text
#持续化存储
with open('./baidu.html','w',encoding='utf-8')as fp:
    fp.write(page_text)
#打印结束提示
print ('over')

结果：是一个存在本地根目录下的html文件

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

远离Bug。 CSDN认证博客专家 CSDN认证企业博客

码龄5年

9: 原创

131万+: 周排名

30万+: 总排名

2782: 访问

: 等级

149: 积分

45: 粉丝

34: 获赞

6: 评论

22: 收藏

私信

关注

热门文章

分类专栏

java片段 2篇

最新评论

排序 AND 二分查找喔
咋说话呢？: 为啥？为啥你的访问量这么多
基础爬虫之xpath爬取图片
CSDN-Ada助手: 很棒的博客！你的文章让我对xpath有了更深刻的理解，也了解了如何使用xpath爬取图片。如果你想深入学习爬虫，可以了解一下反爬虫机制和如何绕过它们。另外，了解一些常用的爬虫框架，如Scrapy，可以帮助你更高效地爬取网站数据。谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python基础爬虫(学习笔记版)
喜欢吃animal milk: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文，同时也希望可以来我博客指导我一番！
python基础爬虫(学习笔记版)
CSDN-Ada助手: 恭喜您的文章入围每天最佳新人「2023-05-16」榜单, 排名「29」, 一定要再接再厉哦, 创作更多高质量博客, 争取拿到更好成绩, 全部的排名请看: https://bbs.csdn.net/topics/615327549 更多创作活动请看: 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 新人首创任务挑战赛: https://marketing.csdn.net/p/90a06697f3eae83aabea1e150f5be8a5?utm_source=csdn_ai_ada_redpacket Microsoft Edge功能测评！: https://activity.csdn.net/creatActivity?id=10403?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 应届生如何提高职场竞争力: https://activity.csdn.net/creatActivity?id=10409?utm_source=csdn_ai_ada_redpacket 讯飞星火大模型将超越chatgpt？: https://activity.csdn.net/creatActivity?id=10407?utm_source=csdn_ai_ada_redpacket 职场新人备忘录: https://activity.csdn.net/creatActivity?id=10405?utm_source=csdn_ai_ada_redpacket “裸奔”时代下该如何保护网络隐私: https://activity.csdn.net/creatActivity?id=10401?utm_source=csdn_ai_ada_redpacket VR vs AR：哪种技术更有潜力改变未来？: https://activity.csdn.net/creatActivity?id=10399?utm_source=csdn_ai_ada_redpacket 蓝桥杯备赛指南分享: https://activity.csdn.net/creatActivity?id=10317?utm_source=csdn_ai_ada_redpacket 有哪些工具软件是一旦用了就离不开的？: https://activity.csdn.net/creatActivity?id=10397?utm_source=csdn_ai_ada_redpacket 量子计算：下一个大风口，还是一个热炒概念？: https://activity.csdn.net/creatActivity?id=10395?utm_source=csdn_ai_ada_redpacket
python基础爬虫(学习笔记版)
CSDN-Ada助手: 非常棒的第一篇博客！看到你分享了自己的学习笔记，感觉你真的很用心。希望你能继续坚持写作，分享更多有价值的知识和经验。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。