无敌python爬虫教程学习笔记（二）

yyysec

已于 2022-02-27 08:25:28 修改

阅读量615

点赞数 10

文章标签：爬虫 python 学习

于 2022-02-22 21:35:04 首次发布

本文链接：https://blog.csdn.net/qq_53571321/article/details/123072988

版权

本文介绍了Python爬虫的基础知识，包括使用urllib.request模块抓取网页内容，解码UTF-8编码，以及将网页内容保存到本地HTML文件。通过一步步的代码演示，展示了如何编写一个简单的爬虫程序，实现从百度网站抓取并保存页面内容。

摘要由CSDN通过智能技术生成

系列文章目录

无敌python爬虫教程学习笔记（一）
无敌python爬虫教程学习笔记（二）
无敌python爬虫教程学习笔记（三）
无敌python爬虫教程学习笔记（四）

前言

编写的一个爬虫小程序

基本的爬虫源码及改善

#爬虫：通过编写程序来获取到互联网上的资源
#百度
#需求：用程序模拟浏览器，输入一个网址，从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read())#读取响应

运行结果：
在这里插入图片描述
结果其实是有中文的，需要解码，怎么解，其实可以观察到是utf-8。

我们加入解码，重新运行。

#爬虫：通过编写程序来获取到互联网上的资源
#百度
#需求：用程序模拟浏览器，输入一个网址，从该网址中获取到资源或者内容
#三步

from urllib.request import urlopen#导包

url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

print(resp.read().decode("utf-8"))#读取响应

结果也是显示中文。
在这里插入图片描述
但是还是有问题，大家看到的还是一堆看不懂的东西，和浏览器看到的还是有区别的。我们现在把他保存在一个文件中。
再次修改代码，让我们看的舒服点，能看懂。

#爬虫：通过编写程序来获取到互联网上的资源
#百度
#需求：用程序模拟浏览器，输入一个网址，从该网址中获取到资源或者内容
#三步


from urllib.request import urlopen#导包


url = "http://www.baidu.com"#输入网址
resp = urlopen(url)#返回一个响应

with open("mybaidu.html",mode="wb") as f:
    f.write(resp.read())

print("over!!!")