10-搜狐视频中电视剧的分集简介爬取

目的:按地区对搜狐卫视中的电视剧进行爬取,爬取信息包括:剧名(albumName)、主演(actors)、地区(area)、类型(categories)、导演(directors)、年份(publishYear)、简介(albumDesc)、每集的名称(name)、每集观看人数(vid)、每集介绍(videoDesc)

结构呈现:按地区生成相对应的文件夹,以及该目录下存放每部电视剧的txt

注:想想我可是个电视剧迷啊!细数90后的那些偶像剧【王子变青蛙,爱情魔发师,恶魔在身边,绿光森林......】,哪一个是我没看过的?!几乎没有!!!我都看过的!!!那些主题曲我都还记得呢!!!!

~~~~那些可是我逝去的青春啊!

搜狐视频官网首页:https://tv.sohu.com/

#下面为本实例的爬虫代码,若有问题可以给我留言,或者有更好的解决方法也可以私信我~

import requests
from bs4 import BeautifulSoup
import re
import os

def get_page(url,params=None):
    headers={'user-agent':'Mozilla/5.0'}
    try:
        r=requests.get(url,headers=headers,params=params)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except Exception as e:
        print(e)

def get_cate(url):  #得到每个类别的网址以及名称
    html=get_page(url)
    soup=BeautifulSoup(html,'html.parser')
    request_url='https:'+soup.find('a',{'data-pb-other':{'内地剧'}})['href']

    html=get_page(request_url)
    soup=BeautifulSoup(html,'html.parser')
    div=soup.find('div',{'class':{'sort-type'}})
    tag_addr=div('dl')[1]
    cate_url=[]
    cate_name=[]
    for a in tag_addr('a')[1:]:
        cate_url.append('https://so.tv.sohu.com'+a['href'])
        cate_name.append(a.text.strip())
    return cate_url,cate_name

def get_num(url):  #得到每个是多少页
    html=get_page(url)
    soup=BeautifulSoup(html,'html.parser')
    div=soup.find('div',{'class':{'ssPages'}})
    try:
        a=div('a')[-2]
        num=int(a.text.strip())
    except:
        num=int(div('span')[0].text.strip())
    return num

def get_dramaurl(url):
    dramas_url = []
    html=get_page(url)
    soup=BeautifulSoup(html,'html.parser')
    all_div=soup.find_all('div',{'class':{'st-pic'}})
    for div in all_div:
        dramas_url.append('https:'+div('a')[0]['href'])
    return dramas_url

def get_info(url,cate):
    html=get_page(url)
    playlistId=re.findall('playlistId = "(.*?)"',html)[0]
    params={
        'playlistid':playlistId,
        'order':'0',
        'cnt':'1',
        'withLookPoint':'1',
        'preVideoRule':'1',
        'ssl':'0',
        'callback':'__get_videolist'
    }
    base_url='https://pl.hd.sohu.com/videolist'
    html=get_page('https://pl.hd.sohu.com/videolist',params)
    albumName=re.findall('"albumName":"(.*?)"',html,re.S)[0]  #片名
    actors=re.findall(r'"actors":\[(.*?)\]',html,re.S)[0]   #演员
    area=re.findall('"area":"(.*?)"',html,re.S)[0]           #地区
    categories=re.findall('categories":\[(.*?)\]',html,re.S)[0]  #分类
    directors=re.findall('"directors":\[(.*?)\]',html,re.S)[0]  #导演
    publish_year=re.findall('"publishYear":\d+',html,re.S)[0]  #出版年限
    albumDesc=re.findall('"albumDesc":"(.*?)"',html,re.S)[0]  #剧情简介

    name=re.findall('"name":"(.*?)"',html,re.S)  #每一集的名称
    vid=re.findall('"vid":\d+',html,re.S)[1:]  #第一个vid是所有观看人数,我们要的是每集的观看人数
    videoDesc=re.findall('"videoDesc":"(.*?)"',html,re.S)  #有些是预告,就没有结果
    fjjq=''#分集剧情
    for i in range(len(videoDesc)):
        mj=name[i]+'\n'+'观看人数:'+vid[i]+'\n'+'该集简介:'+videoDesc[i]+'\n'
        fjjq=fjjq+mj+'\n'

    path='./'+cate+'/'
    if not os.path.exists(path):
        os.makedirs(path)
    file=path+albumName+'.txt'
    with open(file,'a+',encoding='utf-8')as f:
        f.write('剧名:'+albumName+'\n')
        f.write('主演:'+actors+'\n')
        f.write('地区:'+area+'\n')
        f.write('类型:'+categories+'\n')
        f.write('导演:'+actors+'\n')
        f.write('年份:'+publish_year+'\n')
        f.write('简介:'+albumDesc+'\n')
        f.write('分集剧情:'+'\n')
        f.write(fjjq)
    f.close()
    print('❤{}❤类别下的❤{}❤电视剧---->保存成功!'.format(cate,albumName))

if __name__ == '__main__':
    start_url='https://tv.sohu.com/'
    cate_url, cate_name=get_cate(start_url)
    for i in range(len(cate_url)):
        num=get_num(cate_url[i])
        old='_p11_p12_p13.html'
        for j in range(1,num+1):
            if j==1:
                page_url=cate_url[i]
            else:
                new=str(j)+old
                page_url=cate_url[i].replace(old,new)
            #print(page_url,cate_name[i])
            dramas_url=get_dramaurl(page_url)
            for drama in dramas_url:
                try:
                    get_info(drama,cate_name[i])
                except:
                    continue

屏幕显示:【部分】

f9e24a7d189122938a99d181e2d915bfe68.jpg

文件夹显示:【部分】

4e315fd7d577e6f54ec9b8d76396fb8ed66.jpga7f3b5c481a4140c94dc555526196ebf3d0.jpg

d1a0ccade2176903296cc67155ac7cccec6.jpg

哎,看到这些电视剧的名称,发现自己突然有点跟不上你潮流,好多都没看过......还是我上初高中那会的电视剧好看!可能是躲着爸妈偷偷看吧,就觉得特别好看~~~

好怀恋那时候的日子哇~~~(づ ̄3 ̄)づ╭❤~

今日爬虫完成!

今日鸡汤:努力和上进不是为了做给别人看,是为了不辜负自己,不辜负此生。 ​​​​

加油ヾ(◍°∇°◍)ノ゙

转载于:https://my.oschina.net/pansy0425/blog/2993453

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值