Douban评论爬取----python re模块和request模块使用

最新推荐文章于 2022-12-24 15:16:58 发布

TK_1

最新推荐文章于 2022-12-24 15:16:58 发布

阅读量1k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/SKD621/article/details/80536560

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习笔记

整合一下静态爬虫的整体的思路

先获取URL对应网址的html的内容；再获取对应的内容（在这里我使用的是re模块进行解析）；将对应的数据进行保存

# 首先说明一下坑，由于没有使用IP代理池，第一次爬取的时候被封了IP

1、首先是得到网页的html内容，因此在这里，直接使用的 request.get(url, headers,timeout)

因此在这里编写代码的时候，

需要给出一个base_url：就是对应网页的总体的url部分，再结合urlencode进行编码的操作

# 获得对应的网页数据
def get_one(num):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
    }
    params = {
        'start' : str(num),
        # 'limit': '20',
        # 'sort' : 'new_score',
        # 'status' : 'P',
        # 'percent_type' : ''
    }
    base_url = 'https://movie.douban.com/subject/27663984/reviews?'
    url = base_url + urlencode(params)
    try:
        response = requests.get(url,headers=headers,timeout=10)
        if response.status_code == 200:
            return response.text
    except EOFError as e:
        print(e)
        return None

header：对应的头，可以去头部代理寻找自己想要的

params这个数据填写要结合网页的url本身书写：采用键值对的形式

注意很重要的一点就是进行异常处理，根据每一种情况写出对应的错误处理，防止代码运行直接崩溃

status_code == 200的时候去提取网页的html信息

通过这个操作，我们能够得到网页的静态的html内容