python 爬虫初步

1.requests库使用

爬虫首先要做的第一步就是获取所需信息所在的网页地址,这时就需要我们的requests库。
本文仅介绍其中的get请求。
具体模式如下

import requests#导入requests库
url="(在此粘贴你所需的网页域名)"
head={
"User-Agent":"(你的ua信息)"
}
oi=requests.get(url,headers=head)#变量名随意起,但最好有针对性

2.请求头

目前大多数网页都会设置ua权限,使得客户端只能以浏览器访问网页。ua,即user-agent,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等等。设置ua权限是一种简单的防爬手段,因为一般爬虫发起请求时是不会具有以上那些信息在请求头里的,所以很容易被拒绝访问。
所以我们要主动添加ua信息以免服务端拒绝提供服务。
而ua信息我们在浏览器的就能查找到
点击进入浏览器,单击右键,再点击检查就能看到网页的检查元素工具,上面找到网络,进入任意文件查找(如果没有文件就刷新网页)找到标头,其中就要请求头,里面就有相关的ua信息了。
复制值粘贴到headers里就行
如上代码块所示。

3.html语言

学习爬虫需要一定程度的前端知识,所以可以先去了解http协议以及html(超文本标记语言)再来深入学习。
总之,html可以简单理解为网页的编写语言,网页的各种功能都是由它来实现的。所以获取在网页上我们所需要的信息需要从网页的html相关代码中获取。
本文仅介绍基本方法

4.获取网页源代码

我们只需在之前获取网页的变量后面加上,.txt即可获取相关网页源代码。
随后可以用print直接显示出来。
而想要对其中的有关部分代码进行提取还需要学习另外的知识,如xpath或者正则等等。

本文仅初步说明爬虫的基本要求。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值