【爬虫专栏9】ajax爬取豆瓣

最新推荐文章于 2022-01-26 16:11:24 发布

夏友

最新推荐文章于 2022-01-26 16:11:24 发布

阅读量296

点赞数

分类专栏：爬虫和数据分析文章标签： python json ajax 定位正则表达式

本文链接：https://blog.csdn.net/summer_bird/article/details/105948632

版权

爬虫和数据分析专栏收录该内容

18 篇文章 0 订阅

订阅专栏

先定位到他的json数据页面
在这里插入图片描述
不同的是他多出了param参数

补上就行，和json差别不大
同时，有些ajax进入后是网页源码，所以需要重新利用正则或者lxml对网页信息进行提取，提取方法是一样的

#这个和json动态加载时类似的，但是这个可以利用json也可以利用ajax的param参数进行抓取
import requests
import time
from fake_useragent import UserAgent


class DoubanSpider(object):
    def __init__(self):
        self.base_url = ''
        self.i = 0

    def get_html(self, params):
        headers = {'User-Agent': UserAgent().random}
        #因为有了param参数让他得以定位
        res = requests.get(url=self.base_url, params=params, headers=headers)
        res.encoding = 'utf-8'
        html = res.json()  # 将json格式的字符串转为python数据类型
        self.parse_html(html)  # 直接调用解析函数

    def parse_html(self, html):
        # html: [{电影1信息},{电影2信息},{}]
        item = {}
        for one in html:
            item['name'] = one['title']  # 电影名
            item['score'] = one['score']  # 评分
            item['time'] = one['release_date']  # 打印测试
            # 打印显示
            print(item)
            self.i += 1

    # 获取电影总数
    def get_total(self, typ):
        # 异步动态加载的数据 都可以在XHR数据抓包
        url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(typ)
        ua = UserAgent()
        html = requests.get(url=url, headers={'User-Agent': ua.random}).json()
        total = html['total']

        return total

    def main(self):
        typ = '剧情'
        typ_dict = {'剧情': '11', '喜剧': '24', '动作': '5'}
        typ = typ_dict[typ]
        total = self.get_total(typ)  # 获取该类型电影总数量

        for page in range(0, int(total), 20):
            params = {
                'type': typ,
                'interval_id': '100:90',
                'action': '',
                'start': str(page),
                'limit': '20'}
            self.get_html(params)
            time.sleep(1)
        print('爬取的电影的数量:', self.i)


if __name__ == '__main__':
    spider = DoubanSpider()
    spider.main()

夏友

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【爬虫专栏9】ajax爬取豆瓣

先定位到他的json数据页面不同的是他多出了param参数补上就行，和json差别不大#这个和json动态加载时类似的，但是这个可以利用json也可以利用ajax的param参数进行抓取import requestsimport timefrom fake_useragent import UserAgentclass DoubanSpider(object): de...
复制链接

扫一扫