Pandas
文章平均质量分 95
数据小斑马
浙大硕士毕业,互联网数据分析师,喜欢深入业务,也喜欢挖掘技术,希望和大家可以多多交流
展开
-
大数据告诉你,世纪佳缘都是谁在相亲(python爬虫&分析,附全部代码)
公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料数据分析学习目录:一、Excel系列——四大常用函数及十大高级图表二、SQL系列——性能优化/多表关联/窗口分析函数等三、统计学系列——概率论/置信区间/相关/抽样等四、Pandas系列——数据读取/清洗/规整/分析实战等五、Python做图系列——箱型图/散点图/回归图/热力图等六、业务积累系列——流水预测/精细化运营/排序算法等七、Kmeans系列——原理/评价指标/RFM实战等八、决策树系列——算法原理/调参/pyt原创 2020-05-24 17:48:50 · 5697 阅读 · 4 评论 -
只需1秒,用python开发Excel报表也太快了!
作者:微信公众号(数据小斑马)数据报表开发是数据分析师一项非常重要的工作内容,不管是大公司的数据中台,还是小型公司的报表推送,Python都是实现报表开发的重要工具。本篇分成两部分,首先讲解Python操作Excel基础用法(建表,建sheet,插入数据,合并单元格,获取行列数等),后面结合一个实例讲解如何利用python进行报表开发一、Python操作Excel用法① 建立工作簿/建立工作表/插入值/保存excel用的是openpyx...原创 2020-05-17 15:13:03 · 5833 阅读 · 1 评论 -
Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)
数据是某企业销售的6种商品的送货及用户反馈数据,主要想要了解:1、各月份、各区域、各货品的送货情况,哪一块是是急需要改进的2、各货品在不同区域的反馈数据,看下每个商品的最佳市场和最差市场3、各货品在不同区域的销售情况,看下哪块市场应该加强,哪块市场需要减少投资4、分析下商品的送达情况与反馈情况是否有相关性?详细分析如下(想要数据集的可以在评论区戳我喔~)一、数据清洗① 重复值、缺失值...原创 2019-06-10 17:37:21 · 3093 阅读 · 8 评论 -
Pandas数据分析⑦——数据分析实例2(泰坦尼克号生存率分析)
Kaggle竞赛的“泰坦尼克号预测生还”是进行Pandas数据分析非常好的案例,虽然CSDN有很多大神已经做了非常高深的机器学习的建模研究,但是我还是想从一个比较基础的提升Pandas使用角度来做一篇总结~今天主要想了解的有:1、不同性别、舱位和年龄的分布情况2、不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征有哪些一、数据清洗①筛选列import pandas as p...原创 2019-06-10 17:35:26 · 6688 阅读 · 6 评论 -
Pandas数据分析⑤——数据分组与函数使用(Groupby/Agg/Apply/mean/sum/count)
之前有篇SQL聚合函数的文章(https://blog.csdn.net/cindy407/article/details/90341410),讲述了SQL中分组函数groupby及相应的聚合函数使用。在Pandas数据分析中,Groupby也是使用频率非常高的方法,两者其实非常相似,看完本篇你就知道怎么用啦!一、Groupby基本使用① groupby可以通过传入需要分组的参数实现对数据的...原创 2019-06-10 17:33:18 · 16853 阅读 · 1 评论 -
Pandas数据分析③——数据规整1(索引和列名调整/数据内容调整/排序)
数据规整是在数据清洗完毕后,将其调整成适合分析的结构,为后续的深入分析作准备,主要分为以下几类:索引和列名调整: 设定新索引,筛选想要的列,更改列名数据排序:根据索引或列进行排序数据格式调整:更改数据类型,更改数据内容(去除空格标点符号/截取/替换/统一数据单位等),增加用于分析的辅助列数据拼接:行堆叠和列拼接数据透视:行或列维度转换本篇先介绍前3种,下一篇介绍后2种一、索引和列名调...原创 2019-06-05 22:09:54 · 3016 阅读 · 1 评论 -
Pandas数据分析①——数据读取(CSV/TXT/JSON)
一、CSV读取和导出①基本参数②注意事项:header=0/Nonenames=[]/listencoding=‘gbk’/‘utf-8’index_col=[]存储路径最好全英文,或直接放入pandas默认的存储路径名字也纯英文二、TXT读取和导出①基本参数②注意事项:sep = ‘\s+’encoding=‘utf-8’三、JSON读取和导出①python自带方式...原创 2019-06-03 22:52:01 · 23518 阅读 · 2 评论 -
Pandas数据分析④——数据规整2(数据拼接/透视)
数据规整是在数据清洗完毕后,将其调整成适合分析的结构,为后续的深入分析作准备,主要分为以下几类:索引和列名调整: 设定新索引,筛选想要的列,更改列名数据排序:根据索引或列进行排序数据格式调整:更改数据类型,更改数据内容(去除空格标点符号/截取/替换/统一数据单位等),增加用于分析的辅助列数据拼接:行堆叠和列拼接数据透视:行或列维度转换上一篇介绍前3种,本篇介绍后2种一、数据拼接1、...原创 2019-06-06 09:30:52 · 1870 阅读 · 0 评论 -
Pandas数据分析②——数据清洗(重复值/缺失值/异常值)
数据清洗主要分为三步:重复值处理——删除(有几个相同就删除还是全部得相同)缺失值处理——删除,填充(均值,众数,中位数,前后相邻值),插值(拉格朗日插值,牛顿插值)异常值处理——describe进行描述性分析+散点图+箱型图定位异常值,处理方法:删除,视为缺失值一、重复值处理① 先用duplicated()方法进行逻辑判断,确定是否有重复值data = pd.read_csv("dat...原创 2019-06-04 22:48:13 · 35905 阅读 · 4 评论