Pandas
文章平均质量分 77
Pandas数据分析
大话数据分析
前蚂蚁金服数据运营,现京东经营分析,公众号、知乎、头条「大话数据分析」主理人,专注于数据分析的实践与分享,掌握Python、SQL、PowerBI、Excel等数据分析工具,擅长运用技术解决企业实际问题,欢迎一同探索数据的世界,解锁业务背后的秘密。
展开
-
Python玩转Excel,使用Python读取Excel文件如此简单!
学习一个函数最佳的就是学习其参数,只要掌握其参数含义,就能使用其函数的用法了,这里介绍一个使用jupyter notebook的小技巧,当输入pd.read_csv(),却不知道里面包含哪些参数时,可以在括号()里使用电脑快捷键Shift+Tab键,就可以调出其参数。在数据分析中,常用的Excel文件格式有两种,一种是.xlsx格式,另一种是.csv格式,这里以导入.csv格式的文件为例,借助于Python中的pandas库导入Excel数据。文章合辑 | 数据人的高薪秘诀:精通工具与分析方法!原创 2024-03-19 14:13:15 · 384 阅读 · 0 评论 -
Pandas数据爬虫,爬取网页数据并存储至本地数据库
read_html函数是最简单的爬虫,可爬取静态网页表格数据,但只适合于爬取table 表格型数据,不是所有表格都可以用read_html爬取,有的网站表面上看起来是表格,但在网页源代码中不是table格式,而是list列表格式,这种表格就不适用read_html爬取。原创 2024-01-18 11:55:33 · 1189 阅读 · 0 评论 -
Python如何将横表和纵表任意转换?两种方法告诉你
横表转纵表这里介绍两种方法,一种是melt()方法,另一种是stack()方法,在melt()的参数中id_vars表示不需要被转换的列名,除此之外剩下的列全部都要转换,就不用写了,var_name和value_name是自定义设置对应的列名,转为长表的数据如下所示。我们日常做数据分析,接收到最多的表格是纵表,每个字段变量都有很长数据的长表,我们称之为纵向数据,但是,有时候,我们也会遇到横表,称之为横向数据,对于横向数据,我们会数据转化,将其转化为纵向数据进行数据处理,下面一起来学习。原创 2023-12-27 15:52:30 · 596 阅读 · 0 评论 -
对比Excel轻松学Python,Python中的COUNTIFS和SUMIFS用法总结
本文借助Python对比Excel中多条件计数和求和的用法,轻松实现实现Python中的多条件计数和求和,相较而言,Python的语法更加清晰,多条件计数和求和的用法更加鲜明,下面一起来学习。计算北京女性的客户数,需要满足两个条件,一个是城市列属于北京,另一个是性别是"F",两个条件同时满足,得出北京女性的客户数为3。计算不同性别的客户数,使用COUNTIF函数,添加计入的条件进行运算,得出女性客户数是5,男性客户数是5。北京的销售额求和,求和城市里满足是北京市的销售额,得出销售额为10828。原创 2023-12-21 17:33:51 · 671 阅读 · 0 评论 -
入职大厂必备的数据分析技能,0基础带你学习Pandas数据分析
数据分析时,首先应对数据进行清洗,这里将数据清洗分为重复值处理、缺失值处理、异常值处理三个部分,重复值处理可删除重复的字段,缺失值处理可以用线性插值、填充为0或用均值填充等,异常值处理用描述性分析、散点图、箱形图、直方图查找异常并处理。对于一些异常值的处理,可以使用散点图和箱线图进行数据标记,describe( )对统计字段进行描述性分析,从平均值、标准差,看数据的波动情况,最大值查看数据的极值。使用to_excel,写入导出的路径,进行数据导出,index=False消行索引原创 2023-12-04 17:10:58 · 936 阅读 · 0 评论 -
Pandas也能自定义图表数据格式?代码修改数据图表格式的新玩法
RGB颜色格式:#RRGGBB(两个R代表了红色光,两个G代表了绿色光,两个B代表了蓝色光,RGB均用16进制数字表示) ,如#0000ff代表了0份红色光,0份绿色光和255份蓝色光。使用pandas设置色阶,类似Excel条件格式中的色阶使用,数值越大,颜色越深,数值越小,颜色越浅。使用pandas设置数据条,当数值大于0时,标记为绿色,当数值小于0时,标记为红色。除了使用默认的数据条颜色,还可以使用上述的RGB颜色表,自定义数据条颜色。同理,标记数据的最小值使用highlight_min函数。原创 2023-12-10 18:38:20 · 941 阅读 · 0 评论 -
Python数据可视化,Pandas作图分析,你会吗?
数据可视化是为了使得数据更高效地反应数据情况,便于让读者更高效阅读,而不单是自己使用,通过数据可视化突出数据背后的规律,以此突出数据中的重要因素,并且,数据可视化可以将数据变得更加直观。精美的图表可以方便用户解读数字之间的关系,相比起枯燥的表格来讲,有助于发现容易被忽视的趋势和规律。通过对趋势和规律的分析,可以帮助用户做出正确的判断。原创 2023-12-13 17:32:45 · 364 阅读 · 0 评论 -
速学Pandas,10分钟搞定,人人都能掌握的分析方法
如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对每个班的总分数求平均值、最大值和最小值,以1班为例,平均分是439.6分,最高分是582.5分,最小分是324.5分。如果要对不同字段做不同的运算,比如这里求不同班级的人数和各班的平均分,还是使用.agg函数,但是需要使用一个字典来定义不同的字段使用不同的运算方式,对姓名计数,对总分数求平均,以1班为例共有40人,平均分为439.6分。原创 2023-12-05 17:12:11 · 831 阅读 · 0 评论 -
Pandas也能爬虫?爬取网页数据并存储至本地数据库
read_html函数是最简单的爬虫,可爬取静态网页表格数据,但只适合于爬取table 表格型数据,不是所有表格都可以用read_html爬取,有的网站表面上看起来是表格,但在网页源代码中不是table格式,而是list列表格式,这种表格就不适用read_html爬取。原创 2023-12-11 21:47:22 · 1369 阅读 · 1 评论