无敌python爬虫教程学习笔记(二)

本文介绍了Python爬虫的基础知识,包括使用urllib.request模块抓取网页内容,解码UTF-8编码,以及将网页内容保存到本地HTML文件。通过一步步的代码演示,展示了如何编写一个简单的爬虫程序,实现从百度网站抓取并保存页面内容。
摘要由CSDN通过智能技术生成

系列文章目录

无敌python爬虫教程学习笔记(一)
无敌python爬虫教程学习笔记(二)
无敌python爬虫教程学习笔记(三)
无敌python爬虫教程学习笔记(四)



前言

编写的一个爬虫小程序


基本的爬虫源码及改善

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read())#读取响应

运行结果:
在这里插入图片描述
结果其实是有中文的,需要解码,怎么解,其实可以观察到是utf-8。
在这里插入图片描述
我们加入解码,重新运行。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read().decode("utf-8"))#读取响应

结果也是显示中文。
在这里插入图片描述
但是还是有问题,大家看到的还是一堆看不懂的东西,和浏览器看到的还是有区别的。我们现在把他保存在一个文件中。
再次修改代码,让我们看的舒服点,能看懂。

#爬虫:通过编写程序来获取到互联网上的资源
#百度
#需求:用程序模拟浏览器,输入一个网址,从该网址中获取到资源或者内容
#三步


from urllib.request import urlopen#导包


url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

with open("mybaidu.html",mode="wb") as f:
    f.write(resp.read())

print("over!!!")

在这里插入图片描述
提示操作成功,爬取到的内容放入了mybaidu.html中。
在这里插入图片描述
发现和刚刚区别不大,不着急我们点击run,运行这个HTML文件。
在这里插入图片描述
这就是一个最基础的爬虫框架,只需要改目标网址即可。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yyysec

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值