python hello world程序编写_Python爬虫实践(4)--编写第一个网络爬虫程序

本期为python爬虫实践的第四节,传送门:

Python爬虫实践(1)--大数据时代的数据挑战

Python爬虫实践(2)--非结构化数据与爬虫

Python爬虫实践(3)--了解网络爬虫背后的秘密

569a3b3e37ccbae0121254f00b6684dc.png

蜘蛛程序

在已经把所有的开发环境都配置好之后,便可以开始抓取我们想要的网页信息。通过使用浏览器的开发者工具去观察,我们已经知道,这个网页获取的方法是通过HTTP的GET方法,那么我们所要编程的程序也就是模拟同样的过程去抓取这个网页。

33c44c564b5b6bc28a6be72005c90a18.png

GET方法

我们需要使用requests模块,首先在代码中引入requests模块。requests模块可以帮助我们去截取我们想要的网页信息,这个模块的前辈是Urllib2,requests模块改善了Urllib2的缺点,让使用者以最为简单的方法获取网络资源。

import requests

在引入模块后,我们编写下面的python代码。

res = requests.get('https://tech.sina.com.cn/')print(res.text)

代码解读:我们使用requests的get方法去获取目标网址的信息,将信息返回给res这个变量,然后我们将res变量的文本信息输出到屏幕上。屏幕上输出的结果如下图。

3cdef748c92d25bb937fca8da5816606.png

输出结果

输出结果中的中文汉字全部都是乱码,此时我们需要修改一下代码,查看res的编码类型,代码如下:

import requestsres = requests.get('https://tech.sina.com.cn/')print(res.encoding)

输出结果为:ISO-8859-1

b8abc9c96cc52616ceb99f3bd558a8a9.png

编码

接下来,我们只需要去改变这个编码为utf-8就可以了,有关于为什么会出现乱码的原因,可查看小编的这个视频教程,这里我们就不再做讲解。Python编程基础,程序为什么会乱码

修改后的代码为:

import requestsres = requests.get('https://tech.sina.com.cn/')res.encoding='utf-8'print(res.text)

运行结果为:

f96a815546ebca01a5214d1409cf3b61.png

运行结果无乱码

到这里,我们的第一个爬虫程序就编写完成了,但这个程序仅仅是将网页上非结构化数据全部爬取下来,在下一期的教程中,我们将讲解如何在这些信息中去提取我们想要的数据。

额外补充:如果在引入requests模块之后,执行程序报错,提示我们没有引入该模块,我们可以这样操作。

504050ec2d6111464145772652ff6535.png

找到设置

25ebc0f88a6438644842de0c04576fbf.png

添加模块

aef93d5cec8002e64a51774c4eeea0ba.png

通过搜索找到对应模块,进行添加

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值