【Python爬虫篇-1】用python爬取百度首页信息

最新推荐文章于 2024-08-16 19:52:36 发布

WuDreamer.

最新推荐文章于 2024-08-16 19:52:36 发布

阅读量2.4k

点赞数 15

分类专栏： Python篇文章标签： python 爬虫开发语言 https http

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76761656/article/details/134357105

版权

Python篇专栏收录该内容

8 篇文章 0 订阅

订阅专栏

爬虫在使用场景中的分类

通用爬虫:
抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫:

是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。

增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

requests模块: python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
作用: 模拟浏览器发请求。
如何使用:(requests模块的编码流程)
        指定url
        发起请求
        获取响应数据
        持久化存储

1、获取地址

 # url 获取要爬取的地址
    url ='https://www.baidu.com/'

2、发起请求

 # 发起请求
    resp = requests.get(url = url)

3、保证中文输出正常

# 防止出现乱码，保证中文输出正常
    resp.encoding = 'UTF-8'

4、获取数据并打印出来

# 获取数据
    text = resp.text
    print(text)

5、将页面源代码写入文件

# 把页面源代码写入到文件中
    with open('./baidu.html',mode='w',encoding='UTF-8') as f:
        f.write(text)
    print("爬取数据结束")

总代码：

import requests
if __name__ == "__main__":
    # url 获取要爬取的地址
    url ='https://www.baidu.com/'
    # 发起请求
    resp = requests.get(url = url)
    # 防止出现乱码，保证中文输出正常
    resp.encoding = 'UTF-8'
    # 获取数据
    text = resp.text
    print(text)
    # 把页面源代码写入到文件中
    with open('./baidu.html',mode='w',encoding='UTF-8') as f:
        f.write(text)
    print("爬取数据结束")

输出在本地文件中

关注

15
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WuDreamer. CSDN认证博客专家 CSDN认证企业博客

码龄2年

28: 原创

118万+: 周排名

6万+: 总排名

2万+: 访问

: 等级

774: 积分

557: 粉丝

432: 获赞

14: 评论

316: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Python基础篇-3】python实现银行存钱取钱查余额操作
WuDreamer.: 不会吧，我的可以哇
【C++数据结构与算法基础篇 -1】C++实现线性表的插入、删除、查找等操作
Whj750138399: 源码能发一下吗
Java数据结构与算法学习路线
CSDN-Ada助手: 恭喜你写了第18篇博客！看到你一直坚持不懈地分享关于Java数据结构与算法学习的内容，真的很让人钦佩。不过，我想提个建议，可以考虑在下一篇博客中加入一些具体的代码实例，或者分享一些自己在学习过程中的体会和经验。我期待着看到你更多的精彩内容！
【MySQL】sql语句知识点
全栈小5: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰，图文并茂，详略得当，三连支持，期待博主持续输出好文!【【MySQL】sql语句知识点，博主这篇文章，值得一看】
【MySQL】sql语句知识点
CSDN-Ada助手: 恭喜您在博客中分享了关于MySQL sql语句的知识点，内容很有深度和价值。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议您可以尝试结合实际案例或者常见问题，对sql语句进行更深入的解析，让读者能够更好地理解和运用这些知识点。期待您的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

WuDreamer. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。