python基础项目--爬取猫眼TOP榜前一百条数据

最新推荐文章于 2020-12-09 04:20:50 发布

D_dalei

最新推荐文章于 2020-12-09 04:20:50 发布

阅读量438

点赞数 1

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/D_wart/article/details/103620693

版权

主要步骤有：访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件分析需要爬取的页面结构访问猫眼电影。观察页面，会看到首页上有排名前十的电影信息。找到页面中的分页，点击不同的页码。对比不同页面url的差别，会发现不同的分页是以offset参数作为区分的。因为每个页面都显示10条电影信息，所以offset是以10作为偏移量的。标题抓取首页import r...

摘要由CSDN通过智能技术生成

主要步骤有：

访问网站，获取页面源码
解析页面，得到想要的数据
循环爬取多个页面
把数据写入本地文件

分析需要爬取的页面结构

访问猫眼电影。观察页面，会看到首页上有排名前十的电影信息。
找到页面中的分页，点击不同的页码。对比不同页面url的差别，会发现不同的分页是以offset参数作为区分的。
因为每个页面都显示10条电影信息，所以offset是以10作为偏移量的。

标题抓取首页

import re,json

import requests
def write_to_json(infos):
    with open('movie.json','w',encoding='utf-8') as fp :
        json.dump(infos,fp)
#解析页面内容
def parse_page(html_str):
    #测试页面内容是否能拿到
    # print(html_str)
    #正则筛选页面的原则：一步步缩小匹配范围。
    dl_p = re.compile(r'<dl class="board-wrapper">(.*?)</dl>',re.S)
    dl_content = dl_p.search(html_str)

最低0.47元/天解锁文章

D_dalei

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python基础项目--爬取猫眼TOP榜前一百条数据

主要步骤有：访问网站，获取页面源码解析页面，得到想要的数据循环爬取多个页面把数据写入本地文件分析需要爬取的页面结构访问猫眼电影。观察页面，会看到首页上有排名前十的电影信息。找到页面中的分页，点击不同的页码。对比不同页面url的差别，会发现不同的分页是以offset参数作为区分的。因为每个页面都显示10条电影信息，所以offset是以10作为偏移量的。标题抓取首页import r...
复制链接

扫一扫