Python告诉你：李子柒的视频都在拍些什么？(1)

2401_84010302

于 2024-04-08 02:20:52 发布

阅读量1.1k

点赞数 24

分类专栏：程序员文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84010302/article/details/137485637

版权

程序员专栏收录该内容

241 篇文章

订阅专栏

本文介绍了如何使用Python进行数据预处理，包括从Excel文件中读取数据，清洗和转换数据（如提取主题、数值等），以及使用Pyecharts进行数据可视化。同时还分享了适用于不同水平Python开发者的学习资源，提供了一套全面且体系化的前端开发学习资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据预览如下：

导入包

import numpy as np

import pandas as pd

import re

读入数据

df = pd.read_excel(‘./data/李子柒视频数据.xlsx’)

df.head()

在这里插入图片描述

数据清洗

此部分我们初步对以下信息进行简单的处理，其中包含：

title：提取主题和介绍
top_rank：提取数值
view_num：提取数值
dm_num: 提取数值
dianzan: 计算数值
toubi: 计算数值
shoucang：计算数值
zhuanfa：计算数值

定义转换函数

def transform_num(x):

str1 = str(x)

if ‘万’ in str1:

return float(str1.strip(‘万’))*10000

else:

return float(str1)

提取数据

df[‘title_1’] = df.title.str.extract(‘【(.?)】.’)

df[‘title_2’] = df.title.str.split(‘】’).str[-1]

df[‘top_rank’] = df.top_rank.str.extract(‘最高全站日排行(\d+)名’)

df[‘view_num’] = df.view_num.str.extract(‘(\d+)’)

df[‘dm_num’] = df.dm_num.str.extract(‘(\d+)’)

df[‘dianzan’] = df.dianzan.apply(lambda x: transform_num(x))

df[‘toubi’] = df.toubi.apply(lambda x: transform_num(x))

df[‘shoucang’] = df.shoucang.apply(lambda x: transform_num(x))

df[‘zhuanfa’] = df.zhuanfa.apply(lambda x: transform_num(x))

转换类型

df[‘view_num’] = df.view_num.astype(‘int’)

df[‘dm_num’] = df.dm_num.astype(‘int’)

df[‘publish_time’] = pd.to_datetime(df[‘publish_time’])

经过处理之后的数据如下所示：

df.head(2)

在这里插入图片描述

数据可视化

此处我们将进行以下部分的可视化分析，首先导入所需包，其中pyecharts用于绘制动态可视化图形，stylecloud包用于绘制词云图。关键部分代码如下：

导出所需包

from pyecharts.charts import Pie, Line, Tab, Map, Bar, WordCloud, Page

from pyecharts import options as opts

from pyecharts.globals import SymbolType

import stylecloud

视频各年发布数量

发布数量

pub_year = df.publish_time.dt.year.value_counts().sort_index()
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。