爬虫学习（一）

最新推荐文章于 2024-10-18 00:00:00 发布

weixin_43212500

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量127

点赞数

文章标签：爬虫 pytho

本文链接：https://blog.csdn.net/weixin_43212500/article/details/89069028

版权

1. get与post请求

Requests库 实现HTTP请求非常简单，操作也很人性化，所有Python中常用用 Requests 库来实现HTTP请求。

关于 Requests库的安装及详细使用可以 参照这里

关于Requests库常用的方法如下：

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

import requests

url = 'https://www.baidu.com/'

r = requests.get(url)        #向https://www.baidu.com/发送一个get请求

r.raise_for_status()
r.encoding = r.apparent_encoding;
print(r.status_code)								#输出响应码：200为正常，404访问出错
print(r.text[: 200])								#输出网页前200个字节

在断网的情况下运行则出现以下错误
在这里插入图片描述
一般的网站为防止爬虫都会检查发出的请求头，故：

#设置请求头
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cache-Control': 'max-age=0',
    'Connection': '-alive',
    'Cookie': 'BDUSS=3pWZ3R3QWVCS2VlRTJpWVZGUDVIamhuU2JXMFFKQ1hrOWZDR3R4V0NKOUlxbFZjQVFBQUFBJCQAAAAAAAAAAAEAAAD~iXVgu~nN~sW1z9gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEgdLlxIHS5cd; PSTM=1552993169; BIDUPSID=B1B4C28864102C2169AFB4FF60AC71FE; BD_UPN=12314753; BAIDUID=6A875F47187DEAD6EF41354F1D3B754D:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; delPer=0; BD_CK_SAM=1; PSINO=7; BD_HOME=1; BDRCVFR[WEDKNWJws6R]=mk3SLVN4HKm; H_PS_PSSID=',
    'Host': 'www.baidu.com',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

#添加请求头参数
r = Requests.get(url, headers=headers)

2. 正则表达式

在编写处理网页文本的程序时，经常会有查找符合某些复杂规则的字符串的需要，正则表达式就是用于描述这些规则的工具

有关正则表达式的详细教程：参考这里

正则爬虫实例（豆瓣电影Top250）

目标抓取名次、影片名称、年份、导演等字段…

进入目标网页（https://movie.douban.com/top250) , F12进入开发者模式，分析网页发现每部电影的信息都在一个<li>标签中，我们需要的信息都在各自的标签中，以及每页有25条信息。
在这里插入图片描述
在Network中我们可以找到我们需要的请求头（~~其实笔者发现不加头也可以~~）然后让我们写一个re的pattern对象来对我们需要的信息进行匹配，以及循环来翻页，上代码：

import requests
import re

headers = {
    'Referer': 'https://movie.douban.com/chart',
    'Host': 'movie.douban.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

retag = re.compile(
                r'.*?<em class="">(.*?)</em>'  # 匹配 rank
                r'.*?<span class="title">(.*?)</span>'  # 匹配 名称
                r'.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>'
                r'.*?<span class="other">&nbsp;/&nbsp;(.*?)</span>'
                r'.*?<p class="">.*?: (.*?)&nbsp.*?:(.*?)<br>.*?(\d+).*?</p>'  # 匹配 导演 主演 年份
                r'.*?<span class="rating_num" property="v:average">(.*?)</span>'  # 匹配 评价
                r'.*?<span class="inq">(.*?)</span>',
                re.S)

mlists = []     #储存所有电影信息

for i in range(0, 250, 25):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % i
    r = requests.get(url)
    print(r.status_code)
    r.encoding = 'utf-8';
    mlist = retag.findall(r.text)
    for m in mlist:
        list = {
            '排名': m[0],
            '电影名称': m[1] + '/' + m[2] + '/' + m[3],
            '导演': m[4],
            '主演': m[5],
            '年份': m[6],
            '评分': m[7],
            '短评': m[8]
        }
        mlists.append(list)
    print('完成前%s条电影信息的录入' % i)

print(mlists)

运行结果如下：