数据分析之pandas
文章平均质量分 54
蚂蚁*漫步
这个作者很懒,什么都没留下…
展开
-
项目1:pandas数据分析之商铺数据清洗
作业要求:1、成功读取“商铺数据.csv”文件2、解析数据,存成列表字典格式:[{‘var1’:value1,‘var2’:value2,‘var3’:values,…},…,{}]3、数据清洗:① comment,price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段,并且清洗成数字数据源格式如下:import pandas as pdimport numpy as np# 1.成功读入数据df=pd.read_csv('D:/Py...原创 2021-11-01 15:18:07 · 512 阅读 · 0 评论 -
pandas数据变形之分组与聚合
分组运算过程 split->apply->combine拆分:进行分组的根据应用:每个分组运行的计算规则合并:把每个分组的计算结果合并起来1.分组函数-groupbygroupby(by=None) ,groupby实现了split过程。import pandas as pdimport numpy as npdf=pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':...原创 2021-10-31 16:25:33 · 107 阅读 · 0 评论 -
pandas数据变形之关联
1.数据关联的几种方式-inner_join内连接、outer_join外连接、left_join左连接、righr_join右连接。import pandas as pddf4=pd.DataFrame(np.random.randint(2,9,(3,2)),index=['a','s','f'],columns=['A','B'])print(df4)out: A Ba 6 6s 4 4f 7 8df5=pd.DataFrame(np.random..原创 2021-10-31 15:31:25 · 829 阅读 · 0 评论 -
pandas数据加载
1.pandas读取CSV文件。读取处理:skiprows:跳过⼀定的⾏数nrows:仅读取⼀定的⾏数skipfooter:尾部有固定的⾏数不读取skip_blank_lines:空⾏跳过内容处理:sep/delimiter:分隔符很重要,常⻅的有逗号,空格和Tab(‘\t’),也可以指定正则表达式 na_values:指定应该被当作na_values的数值thousands:指定每千位分隔符 索引处理:index_col:将真实的某列(列的数⺫,甚⾄列.原创 2021-10-31 13:15:54 · 439 阅读 · 0 评论 -
pandas基础入门之数据修改
1.向量化函数应用map。map是作用在Series上,是元素级别的操作 Series.map(arg, na_action=None) ,arg可以是一个函数,对元素做函数变换 ,arg也可以是一个dict、series,对元素做数据映射。df=pd.Series([1,2,4,7,8],index=('a','m','c','e','f'))print(df)out:a 1m 2c 4e 7f 8print(df.map(lambda x:x*x)原创 2021-10-31 11:00:18 · 1775 阅读 · 0 评论 -
pandas基础入门之部分值替换与缺失值处理
1.部分值替换直接指定方式 :to_replace 与 value 配套使用,表示 old -> new 单独值:to_replace = old, value = new 相同长度list:to_replace = [old1, old2],value = [new1, new2] list->单值: to_replace = [old1, old2], value = new 指定相同列的dict: to_replace = {column1:old1, column...原创 2021-10-31 09:42:10 · 2477 阅读 · 0 评论 -
pandas基础入门之数据修改与基本运算
1.数据复制。 直接赋值, 直接赋值的话,只是复制的元数据(行列索引),但是元素还是存储在相同内存位置 对元素进行修改会影响另外一个。import pandas as pdimport numpy as npdf=pd.DataFrame(np.arange(12).reshape(4,3),index=list("abcd"),columns=['w','y','z'])print(df)print(df.iloc[1,2])df.iloc[1,2]=20...原创 2021-10-30 21:46:21 · 775 阅读 · 0 评论 -
pandas基础入门之数据选择
学会做数据选择(特定行列抽取)是用Pandas做数据分析的基本功。1.行列表示方法用index表示行索引名称。 用columns表示列索引名称。2.切片表示方法,怎样定位到想要的位置。单值方式,用索引来定位。import pandas as pdimport numpy as npdf=pd.Series([1,2,4],index=('a','b','c'))print(df)print(df['a'])print(df[0])out:a 1b原创 2021-10-30 11:01:08 · 317 阅读 · 0 评论 -
pandas基础入门之数据与查看
s pandas是使数据分析分析工作变得更快更简单的高级数据结构和操作工具,是数据分析师必须要熟练掌握的,现将pandas学习资料整理如下:目录1.pandas数据与查看2.pandas数据选择3.Pandas数据修改与基本运算4.Pandas数据加载5.Pandas多层索引6.Pandas数据变形之关联7.Pandas数据变形之分组与聚合8.Pandas数据变形之数据重塑pandas数据与查看1.1数据抽样head(n)查看前n行...原创 2021-10-29 21:45:27 · 822 阅读 · 0 评论