python爬虫——爬取豆瓣电影top250信息并加载到MongoDB数据库中

5 篇文章 0 订阅
4 篇文章 0 订阅

最近在学习关于爬虫方面的知识,因为刚开始接触,还是萌新,所以有什么错误的地方,欢迎大家指出
from multiprocessing import Pool
from urllib.request import Request, urlopen
import re, pymongo

index = 0

class DouBanSpider(object):
    client = pymongo.MongoClient('localhost')
    db = client['dbmovie']  #进程池无法序列化pymongo对象,因为pymongo数据库中含有线程锁。

    def __init__(self):
        self.headers = {
            'User-Agent': '这里添加自己的浏览器代理'
            ,'Cookie': '豆瓣需要登录后才能访问爬取信息所以要加上自己的Cookie'
        }
        self.tool = DataTool()


    def get_list_html(self, page_num):
        page_num = (page_num - 1) * 25
        list_url = 'https://movie.douban.com/top250?start={}'.format(page_num)
        request = Request(list_url, headers=self.headers)
        try:
            response = urlopen(request)
        except Exception as e:
            print('请求失败:地址{},原因{}'.format(list_url,e))
            return None
        else:
            html = response.read().decode()
            return html
    def parse_list_html(self, html):
        if html:
            pattern = re.compile(r'<div class="hd">.*?<a href="(.*?)" class.*?>.*?', re.S)
            detail_urls = re.findall(pattern, html)
            # for detail_url in detail_urls:
            #     print(detail_url)
            return detail_urls
        else:
            print('html源代码为None')
            return None

    def get_detail_html(self, detail_url):
        request = Request(detail_url, headers=self.headers)
        try:
            response = urlopen(request)
        except Exception as e:
            print('请求失败:地址{},原因{}'.format(detail_url,e))
            return None
        else:
            detail_html = response.read().decode()
            return detail_html

    def parse_detail_html(self, detail_html):
        dic={}
        data = re.findall(re.compile(
            r'<h1>.*?<span property="v:itemreviewed">(.*?)</span>.*?<div id="info">.*?<span .*?><a href=.*?>(.*?)</a></span>.*?<span class=.*?><a href=.*?>(.*?)</a>.*?<span class="actor">.*?<span class=.*?><a href=.*?>(.*?)</a></span></span><br/>.*?<span class=.*?>.*?<span property=.*?>(.*?)</span><br/>.*?<span class=.*?>.*?</span> (.*?)<br/>.*?<span class=.*?>.*?</span>(.*?)<br/>.*?</span> <span .*?>(.*?)</span><br/>.*?<span class=.*?>.*?</span> <span property=.*? content=.*?>(.*?)</span>.*?<br/>.*?<span class="pl">.*?</span>(.*?)<br/>.*?', re.S), detail_html)[0]
        global index
        index = index+1
        print(index, data)
        print('影片名:', data[0])
        print('导演:', data[1])
        print('编剧:', data[2])
        print('主演:', data[3])
        print('类型:', data[4])
        print('制片国家/地区:', data[5])
        print('语言:', data[6])
        print('上映日期:', data[7])
        print('片长:', data[8])
        print('又名:', data[9])
        dic['影片名'] = data[0]
        dic['导演'] = data[1]
        dic['编剧'] = data[2]
        dic['主演'] = data[3]
        dic['类型'] = data[4]
        dic['制片国家/地区'] = data[5]
        dic['语言'] = data[6]
        dic['上映日期'] = data[7]
        dic['片长'] = data[8]
        dic['又名'] = data[9]
        self.db['movie'].insert_one(dic)


    def start_spider(self, num):
        i = 0
        print('正在请求第{}页'.format(num))
        list_html = self.get_list_html(num)
        if list_html:
            detail_urls = self.parse_list_html(list_html)
            if detail_urls:
                for detail_url in detail_urls:
                    i = i+1
                    if i != 164: # 164 因为二十二那部电影没有又名导致爬不出来所以手动过滤
                        detail_html = self.get_detail_html(detail_url)
                    else:
                        continue
                    if detail_html:
                        self.parse_detail_html(detail_html)


if __name__ == '__main__':
    obj = DouBanSpider()
    pool = Pool(1)
    pool.map(obj.start_spider, [x for x in range(1, 10)])
    pool.close()
    pool.join()

运行结果:

 

 

写爬虫一定要有耐心,有时候爬不出来信息很有可能是因为正则表达式写错了!所以要细心。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 豆瓣电影是众所周知的一个知名电影评分网站,其TOP250电影榜单更是备受关注。爬取这个榜单的数据可以帮助我们更好地了解电影市场和评价,数据可视化方面可以更好地呈现这些数据。 首先,我们可以使用Python程序编写爬虫,抓取豆瓣电影TOP250的数据。我们可以通过分析网页源代码,选取需要的信息,例如电影名称、上映时间、豆瓣评分、评分人数、电影类型、导演、演员等信息。然后,将所有信息保存在CSV文件。我们可以使用BeautifulSoup模块或Scrapy框架来实现爬虫程序的编写。 接下来,我们可以使用Python的数据可视化工具来对这些数据进行可视化处理。例如,我们可以使用matplotlib或Seaborn绘制电影评分的统计图表和线型图,了解每部电影评分的分布情况、评分人数的多寡、豆瓣评分的走向等。另外,我们也可以绘制散点图或热图,从电影类型、上映时间等角度分析不同类型电影的评分情况。我们还可以利用词云图工具呈现电影的标签云图,更直观地展示豆瓣用户对电影的评价。 总的来说,我们可以使用Python爬虫和数据可视化工具来爬取豆瓣电影TOP250榜单的数据,并且将数据以图表、统计、云图等形式进行可视化分析,从而更好地了解电影市场和评价。 ### 回答2: 豆瓣电影Top250是电影爱好者们都很熟悉的一个电影排行榜。为了更好地了解这个排行榜的情况,我们可以利用Python爬取豆瓣电影Top250上的电影信息,并将数据制作成可视化图表,以更直观地呈现数据。 首先,我们需要使用Python爬虫技术获取豆瓣电影Top250每部电影的信息。一般来说,爬取网页数据需要用到一些第三方爬虫库,比如Requests和BeautifulSoup。使用Requests库可以向豆瓣服务器发送请求,获取Top250的网页HTML文件。接着,我们可以使用BeautifulSoup库解析HTML文件,从获取每一部电影的名称、评分、演员、导演、简介等信息爬取完毕后,将获取到的数据存储在MySQL或者MongoDB数据库,方便后续对数据的处理和分析。 接下来,我们需要将获取到的数据进行数据可视化。我们可以使用Python的Matplotlib或者Seaborn等数据可视化库来制作可视化图表。比如,我们可以生成柱状图、饼图、折线图等多种图表类型,展现Top250电影各类别的数量分布、电影评分的分布情况、导演、演员等数据的贡献度等信息。 总之,通过Python爬取豆瓣电影Top250数据,并利用数据可视化技术制作图表,我们可以更好地了解电影市场的情况,从找到一些有用的数据洞察点,对后续的电影市场分析等工作提供有力支持。 ### 回答3: 随着互联网的普及和数据挖掘的发展,数据可视化已经成为当今最流行的技术之一。而Python语言的出现,极大地促进了数据可视化技术的发展,并且能够使数据可视化更加高效、便捷。 Python爬取豆瓣电影Top250数据可以使用爬虫框架Scrapy,通过对网页的解析和内容抓取,将所需数据存入数据集。数据集存储了每个电影的名称、导演、主演、类型、上映时间、评价人数、评分等信息,这些数据可以通过Python的数据可视化工具如Matplotlib、Pandas等进行可视化处理。 通过数据可视化可以得到丰富的数据分析和呈现,如: 1.不同类型电影的数量 通过Python可视化工具可以得到不同类型电影的数量,并且可以使用饼图、柱状图等图表进行图像展示,帮助人们更好地了解豆瓣Top250电影各类型的分布情况。 2.电影排名及评价情况 通过Python爬虫框架获取的豆瓣Top250电影可以进行排名展示及评价等数据的分析。可视化工具可以帮助我们通过散点图、折线图等形式直观地了解电影排名及评价情况。 3.电影时长对评分的影响 通过Python可视化工具可视化处理电影时长对评分的影响。可以得出电影时长对于电影评分存在明显影响的结论,以饼图的形式将主观评价高的电影与电影时长进行对比。 Python爬取豆瓣电影Top250,通过数据可视化工具可以使我们直观地了解到豆瓣Top250电影的分类情况、排名和评价等数据信息,同时,也可以了解到电影时长等因素对电影评价的影响,这对我们对电影的分析与推荐可以起到积极的作用,有助于我们更好地了解电影行业的情况。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值