python爬取豆瓣电影top250_Python爬虫——爬取豆瓣电影Top250代码实例

利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中。基本上爬取结果还是挺好的。具体代码如下:

#!/usr/bin/python

#-*- coding: utf-8 -*-

import sys

reload(sys)

sys.setdefaultencoding('utf8')

from bs4 import BeautifulSoup

import re

import urllib2

import xlwt

#得到页面全部内容

def askURL(url):

request = urllib2.Request(url)#发送请求

try:

response = urllib2.urlopen(request)#取得响应

html= response.read()#获取网页内容

#print html

except urllib2.URLError, e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

return html

#获取相关内容

def getData(baseurl):

findLink=re.compile(r'')#找到影片详情链接

findImgSrc=re.compile(r'

findTitle=re.compile(r'(.*)')#找到片名

#找到评分

findRating=re.compile(r'(.*)')

#找到评价人数

findJudge=re.compile(r'(\d*)人评价')

#找到概况

findInq=re.compile(r'(.*)')

#找到影片相关内容:导演,主演,年份,地区,类别

findBd=re.compile(r'

(.*?)

',re.S)

#去掉无关内容

remove=re.compile(r' |\n||\.*')

datalist=[]

for i in range(0,10):

url=baseurl+str(i*25)

html=askURL(url)

soup = BeautifulSoup(html, "html.parser")

for item in soup.find_all('div',class_='item'):#找到每一个影片项

data=[]

item=str(item)#转换成字符串

#print item

link=re.findall(findLink,item)[0]

data.append(link)#添加详情链接

imgSrc=re.findall(findImgSrc,item)[0]

data.append(imgSrc)#添加图片链接

titles=re.findall(findTitle,item)

#片名可能只有一个中文名,没有外国名

if(len(titles)==2):

ctitle=titles[0]

data.append(ctitle)#添加中文片名

otitle=titles[1].replace(" / ","")#去掉无关符号

data.append(otitle)#添加外国片名

else:

data.append(titles[0])#添加中文片名

data.append(' ')#留空

rating=re.findall(findRating,item)[0]

data.append(rating)#添加评分

judgeNum=re.findall(findJudge,item)[0]

data.append(judgeNum)#添加评论人数

inq=re.findall(findInq,item)

#可能没有概况

if len(inq)!=0:

inq=inq[0].replace("。","")#去掉句号

data.append(inq)#添加概况

else:

data.append(' ')#留空

bd=re.findall(findBd,item)[0]

bd=re.sub(remove,"",bd)

bd=re.sub('
'," ",bd)#去掉

bd=re.sub('/'," ",bd)#替换/

#data.append(bd)

words=bd.split(" ")

for s in words:

if len(s)!=0 and s!=' ':#去掉空白内容

data.append(s)

#主演有可能因为导演内容太长而没有

if(len(data)!=12):

data.insert(8,' ')#留空

datalist.append(data)

return datalist

#将相关数据写入excel中

def saveData(datalist,savepath):

book=xlwt.Workbook(encoding='utf-8',style_compression=0)

sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)

col=('电影详情链接','图片链接','影片中文名','影片外国名',

'评分','评价数','概况','导演','主演','年份','地区','类别')

for i in range(0,12):

sheet.write(0,i,col[i])#列名

for i in range(0,250):

data=datalist[i]

for j in range(0,12):

sheet.write(i+1,j,data[j])#数据

book.save(savepath)#保存

def main():

baseurl='https://movie.douban.com/top250?start='

datalist=getData(baseurl)

savapath=u'豆瓣电影Top250.xlsx'

saveData(datalist,savapath)

main()

Excel表部分内容如下:

201941784902020.jpg?201931784936

以上所述是小编给大家介绍的Python爬取豆瓣电影Top250实例详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取豆瓣Top250电影信息,你可以使用Python编写爬虫程序。你可以使用BeautifulSoup库来解析网页内容,并使用requests库来发送HTTP请求获取网页内容。以下是一个步骤示例: 1. 首先,安装所需的库。你可以在终端中使用以下命令安装requests库: pip install requests 2. 然后,安装BeautifulSoup库。你可以在终端中使用以下命令安装BeautifulSoup库: pip install beautifulsoup4 3. 导入所需的库,例如: import requests from bs4 import BeautifulSoup 4. 创建一个函数来发送HTTP请求并获取网页内容: def get_page(url): response = requests.get(url) return response.text 5. 创建一个函数来解析网页内容并提取需要的信息: def parse_page(html): soup = BeautifulSoup(html, 'html.parser') # 在这里编写解析代码,提取豆瓣Top250电影信息 6. 创建一个循环来遍历所有页面,并调用上述函数进行爬取和解析: for i in range(0, 250, 25): url = f'https://movie.douban.com/top250?start={i}' html = get_page(url) parse_page(html) 请注意,以上只是一个简单的示例,你需要根据具体的需求和网页结构进行适当的修改。你可以参考和中提供的教程和文档,以获取更详细的信息和用法。 :Python爬虫基础5天速成(2021全新合集)Python入门 数据可视化 https://www.bilibili.com/video/BV12E411A7ZQ :Beautiful Soup 4.4.0 文档 https://beautifulsoup***://movie.douban.com/top250/?start=0 https://movie.douban.com/top250?start=25 https://movie.douban.com/top250?start=50 …<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Python爬虫——爬取豆瓣Top250](https://blog.csdn.net/weixin_45672809/article/details/113553042)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [python爬虫实例-运用requests抓取豆瓣电影TOP250(详解)](https://blog.csdn.net/sha1_mi/article/details/121781191)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值