爬取热搜电影数据及Pycharts数据分析

VIP文章 BUPT-WT

已于 2023-02-26 10:00:59 修改

阅读量326

点赞数

分类专栏：数据分析文章标签：数据分析数据挖掘 python Powered by 金山文档

于 2023-02-07 08:49:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/128911472

版权

一、数据爬取

# encoding = 'utf-8'

import pandas as pd
import requests
from bs4 import BeautifulSoup

def get_url_content(url):
    r = requests.get(url)
    soup_list = BeautifulSoup(r.text, 'lxml').find_all(class_='category-wrap_iQLoo')
    all_content = []
    for i in range(len(soup_list)):
        index = soup_list[i].find(class_=f'index_1Ew5p c-index-bg{i+1}').get_text().replace(' ','')
        number = soup_list[i].find(class_='hot-index_1Bl1a').get_text().replace(' ','')
        name = soup_list[i].find(class_='c-single-text-ellipsis').get_text().replace(' ','')
        type_actor_list = soup_list[i].find_all(class_='intro_1l0wp')
        type_content = type_actor_list[0].get_text().replace(' ','')
        actor = type_actor_list[1].get_text().replace(' ','')
        desc = soup_list[i].find(class_='c-single-text-ellipsis desc_3CTjT').get_text().replace(' ','')
        all_content.append((index, number, name, type_content, actor, desc))
        
    return all_content

type_list = ['全部类型','爱情','喜剧','动作','剧情','科幻','恐怖','动画','惊悚','犯罪']
region_list = ['全部地区', '中国大陆', '中国香港', '中国台湾', '欧美', '日本', '韩国']

all_content_df = pd.DataFrame()
for type_ in type_list:
    for region in region_list:
        base_url = 'https://top.baidu.com/board?platform=pc&tab=movie&tag={"category":{' + type_ + '},"country":{' + region + '}}'
        per_url_content = get_url_content(base_url)
        per_content_df = pd.DataFrame(per_url_content)
        per_content_df.columns = ['排名', '热搜指数', '电影名', '类型', '演员', '简介']
        per_content_df['整体类

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
爬取热搜电影数据及Pycharts数据分析

爬取百度热搜电影数据及Pycharts数据分析
复制链接

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄6年

793: 原创

13万+: 周排名

31万+: 总排名

60万+: 访问

: 等级

1万+: 积分

362: 粉丝

253: 获赞

100: 评论

1108: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。