使用python爬取电影上映前后两个月的百度指数

最新推荐文章于 2024-08-20 23:19:05 发布

hcbbbb

最新推荐文章于 2024-08-20 23:19:05 发布

阅读量1.3k

点赞数

分类专栏：爬虫文章标签： python 百度指数爬虫

本文链接：https://blog.csdn.net/hcbbbb/article/details/82380418

版权

本文介绍如何使用Python和selenium爬取电影上映前后两个月的百度指数数据，涉及登录、指定日期筛选、指数截图及图像识别。

摘要由CSDN通过智能技术生成

使用python爬取电影上映前后两个月的百度指数

https://blog.csdn.net/hcbbbb/article/details/82380418

本文参考了Github上的TerenceLiu2/BaiduIndexCrawl项目，进行适当的改进，使之适用于个人的需要。

本文主要是从excel表格中读取电影的名称以及上映日期，并在百度指数上进行搜索，然后选定指定的上映前后两个月的日期，并将这60天每一天的百度指数数值通过截图的方式截取下来，最后将图片进行识别即可。
本次主要只将图片截取保存下来，识别的话可以使用免费开源的pytesseract，识别度不会特别的高，当然也可以使用网上很多的图像识别系统，个人推荐可以使用百度的AI开放平台 (笑，数据量不是很大的话，注册认证之后有一定的免费额度可以使用。

前期准备

注意：本文使用的是python2.7编写的编码。

python

本文安装的为anaconda2.7,anaconda里面有python以及python很多基础的包以及与数据科学相关的包，推荐可以直接安装使用。安装的其他问题请自行百度。

selenium

安装可以查看这篇博客：Python爬虫环境常用库安装（看第四点哦）
基本用法可以查看这篇博客：selenium用法详解

进入正文

初始数据

使用到的数据截图如下,数据来源于豆瓣电影与猫眼网，列对应属性为豆瓣ID，电影名称，票房，想看人数，时长，上映日期。
部分电影数据

读取数据

利用xlrd读取excel中的数据。

XmlPath = "data/2016.xls"           # 数据路径
rbook = xlrd.open_workbook(XmlPath) # 读取数据
rsheet = rbook.sheet_by_index(0)
id = rsheet.col_values(0)           # 第一列数据，id
keywords = rsheet.col_values(1)     # 第二列数据，电影名称
releases = rsheet.col_values(5)     # 第六列数据，上映日期
ticot = 0                           # 从第0行开始读取

对读取的数据进行处理

将第 i 行的数据进行处理，返回第i行数据的电影名称，上映年，月，日。

def load_req(i, keywords, releases):
    if keywords != "":
        name = keywords[i]
        day = releases[i].split('-')[2]
        month = releases[i].split('-')[1]
        year = releases[i].split('-')[0]
        print "正在获取", name.encode("utf-8"), "的百度指数"
        return [name, year, month, day]
    else:
        return False

计算需要选择的日期——电影上映前后一个月

#月份-日字典
Monthdict = {
  '01': 31, '02': 28, '03': 31, '04': 30, '05': 31, '06': 30, '07': 31, '08': 31, '09': 30, '10': 31,'11': 30, '12': 31}

def CalculateDate(year, month):
    if year == '2010':
        fyear = 2011
        fmonth = '01'
    else:
        fyear = year
        if int(month) == 1:
            fmonth = '12'