简单的爬虫程序(详解)

目录

扒网页

 urllib的基本使用

 requset.urlopen(url,data,timeout)

response.read()

response.getcode()

response.geturl()

response.info()

request对象的使用

发送请求/响应header头的含义: 

 urllib发送get请求

注意:


扒网页

其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML

  • HTML 70%
  • JS 20%
  • CSS 10%

扒取页面的代码如下: 

from urllib.request import urlopen

# 请求的地址
url = 'http://www.baidu.com/'

# 发送请求
resp = urlopen(url)

#打印响应结果
print(resp.read().decode()[:1000])

注意

urllib模块库是python自带的。在Python2叫urllib2

 这里真正的程序就两行,这个网页的码源就被扒下来了。(当然这里抓取了前1000个,太多了不展示了)

 urllib的基本使用

 requset.urlopen(url,data,timeout)

        其中第一个参数url即为URL,是必须要传送的,

        第二个参数为data是访问url时要传送的数据,

        第三个参数timeout是设置超时时间。

        第二三个参数是可以不传送的,data默认为空None,timeout默认为      ​​​​​            socket._GLOBAL_DEFAULT_TIMEOUT

response.read()

        read()方法就是读取文件里的全部内容,返回bytes类型

response.getcode()

        返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题

response.geturl()

        返回 返回实际数据的实际URL,防止重定向问题

response.info()

        返回 服务器响应的HTTP报头

from urllib.request import urlopen

# 定义发送的位置
url = 'http://www.baidu.com/'

# 发送请求
resp = urlopen(url)

# 打印响应的数据
print(resp.read()[:100])

# 获取响应码
print(resp.getcode())

# 获取访问的url
print(resp.geturl())

# 获取响应头信息
print(resp.info())

获取结果:

request对象的使用

使用urllib.request.urlopen发送请求时,可以将参数封装到一个Request对象中。

参数包含:

  • url 发送的请求链接
  • headers 请求头信息
  • data 请求数据

 使用request对象进行封装参数,可以很好的进行伪装,为什么要伪装?看下图:

 我们可以看到我们的User-Agent为python-urllib/3.9,这别人一看这个软件环境就知道是程序在访问他的网站,所以说我们得伪装自己称浏览器,那么怎么获取自己的User-Agent呢。

有两种方法:

 再通过request来对其进行封装就可以实现伪装浏览器访问的效果。

 代码如下:

from urllib.request import urlopen
from urllib.request import Request

#url = 'http://www.baidu.com/'
url = 'http://httpbin.org/get'

#定义headers信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/103'}
#创建Request对象
req = Request(url,headers=headers)

#发送请求
resp = urlopen(req)

#打印响应结果
print(resp.read().decode())

 效果:

发送请求/响应header头的含义: 

名称含义
Accept告诉服务器,客户端支持的数据类型
Accept-Charset告诉服务器,客户端采用的编码
Accept-Encoding告诉服务器,客户机支持的数据压缩格式
Accept-Language告诉服务器,客户机的语言环境
Host客户机通过这个头告诉服务器,想访问的主机名
If-Modified-Since客户机通过这个头告诉服务器,资源的缓存时间
Referer客户机通过这个头告诉服务器,它是从哪个资源来访问服务器的。(一般用于防盗链)
User-Agent客户机通过这个头告诉服务器,客户机的软件环境
Cookie客户机通过这个头告诉服务器,可以向服务器带数据
Refresh服务器通过这个头,告诉浏览器隔多长时间刷新一次
Content-Type服务器通过这个头,回送数据的类型
Content-Language服务器通过这个头,告诉服务器的语言环境
Server服务器通过这个头,告诉浏览器服务器的类型
Content-Encoding服务器通过这个头,告诉浏览器数据采用的压缩格式
Content-Length服务器通过这个头,告诉浏览器回送数据的长度

 urllib发送get请求

为什么要发送get请求?这是因为我们在浏览器中输入一个url地址访问的时就是get请求。

大部分被传输到浏览器的HTML,images,js,css等都是通过get方法发送请求的。它是获取数据的主要方法。

注意:

        GET请求发送参数时需要转码才可以使用。

 转码的两种方法:

1.quote:转化一个值

 2.urlencode:转化键值对

 这是转化一个值的代码(键值对只需修改一点点即可):

from urllib.request import Request,urlopen
from urllib.parse import quote

#url的参数里不能有中文

args = 'python爬虫'
url = f'https://www.baidu.com/s?wd={quote(args)}'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.12022 SLBChan/103'}
req = Request(url,headers=headers)
resp = urlopen(req)
print(resp.read().decode()[:1500])

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
爬虫是通过编写程序自动获取互联网上的信息的一种技术手段。Python是一种常用的编程语言,也是爬虫开发中广泛使用的语言之一。下面我将对爬虫的详细内容进行解释。 在Python中,我们可以使用第三方库(例如requests、BeautifulSoup、Scrapy等)来编写爬虫程序。首先,我们需要发送HTTP请求来获取目标网页的内容。这可以通过使用requests库中的get或post方法来实现。 获取到网页内容之后,我们需要对其进行解析和提取所需的数据。这时可以使用BeautifulSoup库来实现网页内容的解析,它提供了简单而强大的API来从HTML或XML文档中提取数据。 在解析完数据后,我们可以对其进行进一步的处理和存储。例如,可以将数据保存到数据库中或将其导出为Excel或CSV文件。 此外,还有一些常见的爬虫技术,例如动态网页爬取、登录验证、反爬虫策略等。对于动态网页爬取,我们可以使用Selenium库来模拟浏览器行为。而对于登录验证和反爬虫策略,我们需要分析目标网站的具体情况,并采取相应的措施来应对。 总结来说,爬虫是一种利用编写程序自动获取互联网信息的技术手段。Python是一种常用的编程语言,也是爬虫开发中广泛使用的语言之一。通过使用第三方库来发送HTTP请求、解析网页内容、处理和存储数据,我们可以编写出强大而高效的爬虫程序

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我还可以熬_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值