目的:按地区对搜狐卫视中的电视剧进行爬取,爬取信息包括:剧名(albumName)、主演(actors)、地区(area)、类型(categories)、导演(directors)、年份(publishYear)、简介(albumDesc)、每集的名称(name)、每集观看人数(vid)、每集介绍(videoDesc)
结构呈现:按地区生成相对应的文件夹,以及该目录下存放每部电视剧的txt
注:想想我可是个电视剧迷啊!细数90后的那些偶像剧【王子变青蛙,爱情魔发师,恶魔在身边,绿光森林......】,哪一个是我没看过的?!几乎没有!!!我都看过的!!!那些主题曲我都还记得呢!!!!
~~~~那些可是我逝去的青春啊!
搜狐视频官网首页:https://tv.sohu.com/
#下面为本实例的爬虫代码,若有问题可以给我留言,或者有更好的解决方法也可以私信我~
import requests from bs4 import BeautifulSoup import re import os def get_page(url,params=None): headers={'user-agent':'Mozilla/5.0'} try: r=requests.get(url,headers=headers,params=params) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except Exception as e: print(e) def get_cate(url): #得到每个类别的网址以及名称 html=get_page(url) soup=BeautifulSoup(html,'html.parser') request_url='https:'+soup.find('a',{'data-pb-other':{'内地剧'}})['href'] html=get_page(request_url) soup=BeautifulSoup(html,'html.parser') div=soup.find('div',{'class':{'sort-type'}}) tag_addr=div('dl')[1] cate_url=[] cate_name=[] for a in tag_addr('a')[1:]: cate_url.append('https://so.tv.sohu.com'+a['href']) cate_name.append(a.text.strip()) return cate_url,cate_name def get_num(url): #得到每个是多少页 html=get_page(url) soup=BeautifulSoup(html,'html.parser') div=soup.find('div',{'class':{'ssPages'}}) try: a=div('a')[-2] num=int(a.text.strip()) except: num=int(div('span')[0].text.strip()) return num def get_dramaurl(url): dramas_url = [] html=get_page(url) soup=BeautifulSoup(html,'html.parser') all_div=soup.find_all('div',{'class':{'st-pic'}}) for div in all_div: dramas_url.append('https:'+div('a')[0]['href']) return dramas_url def get_info(url,cate): html=get_page(url) playlistId=re.findall('playlistId = "(.*?)"',html)[0] params={ 'playlistid':playlistId, 'order':'0', 'cnt':'1', 'withLookPoint':'1', 'preVideoRule':'1', 'ssl':'0', 'callback':'__get_videolist' } base_url='https://pl.hd.sohu.com/videolist' html=get_page('https://pl.hd.sohu.com/videolist',params) albumName=re.findall('"albumName":"(.*?)"',html,re.S)[0] #片名 actors=re.findall(r'"actors":\[(.*?)\]',html,re.S)[0] #演员 area=re.findall('"area":"(.*?)"',html,re.S)[0] #地区 categories=re.findall('categories":\[(.*?)\]',html,re.S)[0] #分类 directors=re.findall('"directors":\[(.*?)\]',html,re.S)[0] #导演 publish_year=re.findall('"publishYear":\d+',html,re.S)[0] #出版年限 albumDesc=re.findall('"albumDesc":"(.*?)"',html,re.S)[0] #剧情简介 name=re.findall('"name":"(.*?)"',html,re.S) #每一集的名称 vid=re.findall('"vid":\d+',html,re.S)[1:] #第一个vid是所有观看人数,我们要的是每集的观看人数 videoDesc=re.findall('"videoDesc":"(.*?)"',html,re.S) #有些是预告,就没有结果 fjjq=''#分集剧情 for i in range(len(videoDesc)): mj=name[i]+'\n'+'观看人数:'+vid[i]+'\n'+'该集简介:'+videoDesc[i]+'\n' fjjq=fjjq+mj+'\n' path='./'+cate+'/' if not os.path.exists(path): os.makedirs(path) file=path+albumName+'.txt' with open(file,'a+',encoding='utf-8')as f: f.write('剧名:'+albumName+'\n') f.write('主演:'+actors+'\n') f.write('地区:'+area+'\n') f.write('类型:'+categories+'\n') f.write('导演:'+actors+'\n') f.write('年份:'+publish_year+'\n') f.write('简介:'+albumDesc+'\n') f.write('分集剧情:'+'\n') f.write(fjjq) f.close() print('❤{}❤类别下的❤{}❤电视剧---->保存成功!'.format(cate,albumName)) if __name__ == '__main__': start_url='https://tv.sohu.com/' cate_url, cate_name=get_cate(start_url) for i in range(len(cate_url)): num=get_num(cate_url[i]) old='_p11_p12_p13.html' for j in range(1,num+1): if j==1: page_url=cate_url[i] else: new=str(j)+old page_url=cate_url[i].replace(old,new) #print(page_url,cate_name[i]) dramas_url=get_dramaurl(page_url) for drama in dramas_url: try: get_info(drama,cate_name[i]) except: continue
屏幕显示:【部分】
文件夹显示:【部分】
哎,看到这些电视剧的名称,发现自己突然有点跟不上你潮流,好多都没看过......还是我上初高中那会的电视剧好看!可能是躲着爸妈偷偷看吧,就觉得特别好看~~~
好怀恋那时候的日子哇~~~(づ ̄3 ̄)づ╭❤~
今日爬虫完成!
今日鸡汤:努力和上进不是为了做给别人看,是为了不辜负自己,不辜负此生。
加油ヾ(◍°∇°◍)ノ゙