python hello world程序编写_Python爬虫实践(4)--编写第一个网络爬虫程序

最新推荐文章于 2023-07-24 13:23:14 发布

weixin_39914243

最新推荐文章于 2023-07-24 13:23:14 发布

阅读量82

点赞数

文章标签： python hello world程序编写 python requests模块 python 中文乱码 python中文乱码 python爬虫程序 python网络爬虫

本期为python爬虫实践的第四节，传送门：

Python爬虫实践(1)--大数据时代的数据挑战

Python爬虫实践(2)--非结构化数据与爬虫

Python爬虫实践(3)--了解网络爬虫背后的秘密

蜘蛛程序

在已经把所有的开发环境都配置好之后，便可以开始抓取我们想要的网页信息。通过使用浏览器的开发者工具去观察，我们已经知道，这个网页获取的方法是通过HTTP的GET方法，那么我们所要编程的程序也就是模拟同样的过程去抓取这个网页。

GET方法

我们需要使用requests模块，首先在代码中引入requests模块。requests模块可以帮助我们去截取我们想要的网页信息，这个模块的前辈是Urllib2，requests模块改善了Urllib2的缺点，让使用者以最为简单的方法获取网络资源。

import requests

在引入模块后，我们编写下面的python代码。

res = requests.get('https://tech.sina.com.cn/')print(res.text)

代码解读：我们使用requests的get方法去获取目标网址的信息，将信息返回给res这个变量，然后我们将res变量的文本信息输出到屏幕上。屏幕上输出的结果如下图。

输出结果

输出结果中的中文汉字全部都是乱码，此时我们需要修改一下代码，查看res的编码类型，代码如下：

import requestsres = requests.get('https://tech.sina.com.cn/')print(res.encoding)

输出结果为：ISO-8859-1

编码

接下来，我们只需要去改变这个编码为utf-8就可以了，有关于为什么会出现乱码的原因，可查看小编的这个视频教程，这里我们就不再做讲解。Python编程基础，程序为什么会乱码

修改后的代码为：

import requestsres = requests.get('https://tech.sina.com.cn/')res.encoding='utf-8'print(res.text)

运行结果为：

运行结果无乱码

到这里，我们的第一个爬虫程序就编写完成了，但这个程序仅仅是将网页上非结构化数据全部爬取下来，在下一期的教程中，我们将讲解如何在这些信息中去提取我们想要的数据。

额外补充：如果在引入requests模块之后，执行程序报错，提示我们没有引入该模块，我们可以这样操作。

找到设置

添加模块

通过搜索找到对应模块，进行添加

weixin_39914243

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python hello world程序编写_Python爬虫实践(4)--编写第一个网络爬虫程序

本期为python爬虫实践的第四节，传送门：Python爬虫实践(1)--大数据时代的数据挑战Python爬虫实践(2)--非结构化数据与爬虫Python爬虫实践(3)--了解网络爬虫背后的秘密蜘蛛程序在已经把所有的开发环境都配置好之后，便可以开始抓取我们想要的网页信息。通过使用浏览器的开发者工具去观察，我们已经知道，这个网页获取的方法是通过HTTP的GET方法，那么我们所要编程的程序也就是模拟同...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。