python爬取豆瓣电影信息_Python实现的爬取豆瓣电影信息功能案例

本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:

本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库

step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..

def getpage(url):

try:

res=requests.get(url)

if res.status_code==200:

return res.text

return None

except RequestException:

return None

step2:做每一页的网址解析,打开原网址https://movie.douban.com/top250?,查看网页源代码,可以看到每一个电影的源代码都是从

开始,在处结束,写好正则表达式以后爬到的列表的每一条item都有五个元素,因此将其写成字典的形式,这里用到yield函数(关于yield函数的用法,廖老师的有一篇文章比较好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

201909150935281.png

对单个网页的进行解析的代码如下:

def parsepage(html):

pat=re.compile('

.*? (.*?).*? (.*?)'

+'(.*?)

.*?property="v:average">(.*?).*? (.*?).*?',re.S)

items=re.findall(pat,html)

for item in items:

yield{

'index':item[0],

'title':item[1],

'stars':item[2].strip(),

'score':item[3],

'concept':item[4]

}

下面的代码是将每一个item写入文件,这里encoding='utf-8' 和ensure_ascii=False都是使写入文件时中文能保持不变,json.dumps可以将(字典)对象转化成字符串(但前面要先import json),with open的第二个参数为a,表示每次写入时,是往后追加(续接),而不是后一次写入将之前内容覆盖,\n是指要每一次写入一个item之后要换行。

def write_tofile(content):

with open('doubanfilms.txt','a',encoding='utf-8' ) as f:

f.write(json.dumps(content,ensure_ascii=False)+'\n')

f.close()

最后,需要用循环语句将每一页(共10页)内容都进行以上操作。这里,第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50,也就是每一页的start=为25*i。最后一段代码如下:

def main():

url="https://movie.douban.com/top250?"

for i in range(0,9):

url_i=url+'start='+str(25*i)

html_i=getpage(url_i)

for item in parsepage(html_i):

print(item)

write_tofile(item)

if __name__ == '__main__':

main()

当然,这一段代码还有一种写法:

def main(start):

url="https://movie.douban.com/top250?start="+str(start)

html=getpage(url)

for item in parsepage(html):

print(item)

write_tofile(item)

if __name__ == '__main__':

for i in range(10):

main(i*10)

如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):

#在最开始加载Pool包

from multiprocessing import Pool

#最后的执行段改为:

if __name__ == '__main__':

for i in range(10):

main(i*10)

pool=Pool() #在循环外写

pool.map(main,[i*10 for i in range (10)])

希望本文所述对大家Python程序设计有所帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是基于 Python 爬取豆瓣电影信息并进行可视化的代码示例: ```python # 导入需要的库 import requests import pandas as pd import matplotlib.pyplot as plt from wordcloud import WordCloud # 设置请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 定义爬取电影信息的函数 def get_movie_info(tag, page_start, page_limit): # 构造请求url url = 'https://api.douban.com/v2/movie/search?tag={}&start={}&count={}'.format(tag, page_start, page_limit) # 发送请求 response = requests.get(url, headers=headers) # 获取响应json数据 movie_json = response.json() # 获取电影列表 movie_list = movie_json.get('subjects') # 定义一个空列表存储电影信息 movie_info_list = [] # 遍历电影列表,提取需要的信息 for movie in movie_list: # 电影名称 title = movie.get('title') # 电影评分 rate = movie.get('rating').get('average') # 电影类型 genres = movie.get('genres') # 导演 directors = movie.get('directors')[0].get('name') # 演员 casts = ','.join([i.get('name') for i in movie.get('casts')]) # 上映年份 year = movie.get('year') # 电影介绍 summary = movie.get('summary') # 构造电影信息字典 movie_info = {'title': title, 'rate': rate, 'genres': genres, 'directors': directors, 'casts': casts, 'year': year, 'summary': summary} # 将电影信息字典添加到列表中 movie_info_list.append(movie_info) # 返回电影信息列表 return movie_info_list # 获取所有电影信息 movie_info_list = [] for i in range(0, 100, 20): movie_info_list += get_movie_info('热门', i, 20) # 将电影信息转换成DataFrame格式 df_movie = pd.DataFrame(movie_info_list) # 绘制电影类型分布图 genre_count = df_movie['genres'].str.split(',', expand=True).stack().value_counts() genre_count.plot(kind='bar', title='电影类型分布图', figsize=(8, 6)) plt.xticks(rotation=45) plt.show() # 绘制电影评分排行榜 df_movie.sort_values(by='rate', ascending=False, inplace=True) df_movie['rate'].plot(kind='bar', title='电影评分排行榜', figsize=(8, 6)) plt.xticks(rotation=45) plt.show() # 绘制电影词云图 text = ' '.join(df_movie['summary'].tolist()) wordcloud = WordCloud(width=800, height=600, background_color='white').generate(text) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` 这段代码实现了基于 Python 爬取豆瓣电影信息并进行可视化的功能,其中包括爬取电影信息、清洗数据、绘制电影类型分布图、电影评分排行榜和电影词云图等。您可以根据自己的需求进行修改和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值