Pandas
文章平均质量分 56
qq_期许
不设限
展开
-
【笔记】关于Python星期转换 weekday() dt.strftime(“%w“)
关于Python星期转换 weekday() dt.strftime("%w")原创 2022-08-20 11:33:47 · 834 阅读 · 0 评论 -
pandas resample()
参数:几个常用的参数rule:采样频率参考博客https://matches999.blog.csdn.net/article/details/118887701axis:{0 or ‘index’, 1 or ‘columns’},default 0,即沿行必须是 DatetimeIndex、TimedeltaIndex 或 PeriodIndexclosed:{‘right’, ‘left’},默认区间的哪一侧是闭合的,默认为left除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”原创 2022-06-12 13:59:49 · 191 阅读 · 0 评论 -
关于给dataframe单列中部分行赋值的坑
报错信息:只是将value赋值给了原数据集df的一个副本,并没有改变df的值SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrame.原创 2022-06-11 23:54:26 · 408 阅读 · 0 评论 -
pandas缺失值处理
目录1. 删除 dopna()官方文档默认参数参数解释使用示例2. 填充 fillna()官方文档默认参数参数解释使用示例data = pd.DataFrame([[np.nan, 2, 3, 'a'], [4, np.nan, 6, 'b'], [7, 8, np.nan, 'c'], [1, 2, 3, 'd']], columns=list('abcd'))1. 删除 dopna()官方文档https://pandas.pydata.org/原创 2021-04-10 15:22:24 · 773 阅读 · 0 评论 -
kesci-这十套练习,教你如何使用Pandas做数据分析-练习5(学习笔记)
目录1. 导入必要的库2. 按照如下的元数据内容创建数据集3. 将上述的数据框分别命名为data1,data2和data34. 将data1和data2两个数据框按照行的维度进行合并,命名为all_data5. 将data1和data2按照列的维度进行合并,命名为all_data_col6. 按照subject_id的值对all_data和data3做合并7. 对data1和data2按照subject_id作连接8. 找到data1和data2合并之后的所有匹配结果题目数据来源:https://www.原创 2021-03-02 22:48:35 · 604 阅读 · 0 评论 -
kesci-这十套练习,教你如何使用Pandas做数据分析-练习4(学习笔记)
目录1. 导入库2. 加载数据3. 每一列(columns)的数据类型是什么样的4. 将Year的数据类型转换为datetime645. 将列Year设置为数据框的索引6. 删除名为Total的列7. 按照Year对数据框进行分组求和8. 何时是美国历史上最危险的年代1. 导入库import pandas as pd2. 加载数据crime = pd.read_csv('US_Crime_Rates_1960_2014.csv')3. 每一列(columns)的数据类型是什么样的crim原创 2021-02-28 16:19:33 · 182 阅读 · 0 评论 -
pandas 报错“TypeError: reduction operation ‘argmax‘ not allowed for this dtype”解决办法
pandas 报错“TypeError: reduction operation 'argmax' not allowed for this dtype”解决办法问题现象问题原因解决办法问题现象执行语句crime.idxmax()报错,报错“TypeError: reduction operation ‘argmax’ not allowed for this dtype”数据框crime:问题原因由打印数据框crime可知,列Year并非数据框crime的索引idxmax() 返回的是最原创 2021-02-28 14:14:05 · 1312 阅读 · 0 评论 -
kesci-这十套练习,教你如何使用Pandas做数据分析-练习3(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378数据分组 -- 探索酒类消费数据1. 导入必要的库2. 加载数据3. 哪个大陆(continent)平均消耗的啤酒(beer)更多4. 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值5. 打印出每个大陆每种酒类别的消耗平均值6. 打印出每个大陆每种酒类别的消耗中位数7. 打印出每个大陆对spirit饮品消耗的平均值,最大值和最小值1原创 2021-02-28 00:36:48 · 379 阅读 · 0 评论 -
kesci-这十套练习,教你如何使用Pandas做数据分析-练习2(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378数据过滤与排序 -- 探索2012欧洲杯数据1. 导入必要的库2. 加载数据3. 只选取Goals这一列4. 有多少球队参与了2012欧洲杯5. 该数据集中一共有多少列(columns)6. 将数据集中的列Team,Yellow Cards和Red Cards单独存为一个名叫discipline的数据框7. 对数据框discipline按照先Red Cards再Yellow C原创 2021-02-27 23:59:35 · 422 阅读 · 0 评论 -
kesci-这十套练习,教你如何使用Pandas做数据分析-练习1(学习笔记)
题目数据来源:https://www.kesci.com/mw/notebook/5c1b599d8859e0002b718378了解你的数据 – 探索Chipotle快餐数据1. 导入需要的库import pandas as pd2. 导入数据chipo = pd.read_csv('chipotle.tsv', sep='\t')3. 查看前10行内容chipo.head(10)4. 数据集有多少列(columns)# print(chipo.shape) (4622, 5)原创 2021-02-27 16:59:13 · 457 阅读 · 2 评论 -
pandas使用to_csv和to_excel两个方法保存文件数据不一致的疑问(已解决)
数据来源:https://www.kesci.com/mw/project/5ef7049f63975d002c923a1c1. 在jupyter里加载出来的数据:2. 使用to_excel保存到本地的数据:3. 使用to_csv保存到本地的数据:可以发现,使用to_csv和在jupyter中加载的数据是一致的,但是使用to_excel这个方法就不一样了。占个坑,后续知道答案了再来补充。...原创 2020-11-01 09:49:15 · 2159 阅读 · 0 评论 -
python数据分析常用操作01-更改列名
不喜欢原始数据中的列名,就改呗。目录1. 全部列2. 部分列1. 全部列df.columns = new_columnsnew_coumns 可以是列表或元组但新旧列名的长度必须一致,否者会不匹配报错这种改变方式是直接改变了原始数据。name = ['职位ID', '城市', '公司ID', '职位类型', '职位类型2', '学历', '薪资', '最低薪资', '最高薪资']df.columns=name前后效果对比:2. 部分列df...原创 2020-09-06 23:54:03 · 2703 阅读 · 0 评论 -
Pandas学习笔记14_pandas 连接数据库02
1、导包import pandas as pdimport pymysqlfrom sqlalchemy import create_engine将连接数据库并读取数据的代码封装成一个方法# 将连接数据库并读取数据的代码封装成一个方法def reader(query, db, charset): sql = query engine = create_engine('mysql+pymysql://root:root@localhost:3306/{0}?charset={1}原创 2020-07-05 03:16:14 · 132 阅读 · 0 评论 -
Pandas学习笔记13_pandas 连接数据库01
1、导包import pandas as pdimport pymysqlfrom sqlalchemy import create_engine2、连接数据库方法1:用pymysql库连接数据库的写法conn = pymysql.connect( host = '127.0.0.1', user = 'root', password = 'root', db = 'qinlu', port = 3306, charset = 'utf8')原创 2020-07-05 03:12:06 · 201 阅读 · 0 评论 -
Pandas学习笔记12_pandas 数据透视表
1、加载数据import pandas as pdimport numpy as npposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、数据透视表position.pivot_table(index='city', columns='workYear', values='avg')数据透视表,多重索引# 数据透视表,多原创 2020-07-05 03:07:31 · 116 阅读 · 0 评论 -
Pandas学习笔记11_pandas 聚合
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、apply复习返回各个城市top5的薪资# 返回各个城市top5的薪资def function(x): r = x.sort_values('avg', ascending=False)[: 5] return原创 2020-07-05 03:03:08 · 92 阅读 · 0 评论 -
Pandas学习笔记10_pandas apply
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、apply2.1、在avg列后+‘k’方法1:直接加position['avg_new'] = position.avg.astype(str)+'k'方法2:匿名函数lambda# 使用apply完成在 avg 列 +原创 2020-07-05 02:59:04 · 105 阅读 · 0 评论 -
Pandas学习笔记09_pandas 去重
1、加载数据import pandas as pdimport numpy as npposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、处理空值&去重2.1、处理空值查看city列position.loc[:, 'city']由于数据比较干净,没有空值,所以在这里人为地制空值# 人为制造空值position原创 2020-07-05 02:54:14 · 104 阅读 · 0 评论 -
Pandas学习笔记08_对字符串的操作
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、删除多余的符号(注意转换为str)# 删除多余的符号position.positionLables.str[1:-1].str.replace("'", "")...原创 2020-07-05 02:48:46 · 77 阅读 · 0 评论 -
Pandas学习笔记07_多重索引
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')2、多重索引position.groupby(['city', 'education']).mean()# .avg 转换成series,才可以针对性的查询position.groupby(['city', 'education原创 2020-07-02 23:40:53 · 301 阅读 · 0 评论 -
Pandas学习笔记06_多表关联
1、加载数据import pandas as pdposition = pd.read_csv('position.csv', encoding='gbk')company = pd.read_csv('company.csv', encoding='gbk')concat 堆叠join 根据索引merge 根据键值(最常用)# merge方法position.merge(right=company, how='inner', on='companyId')原创 2020-07-02 23:32:28 · 349 阅读 · 0 评论 -
Pandas学习笔记05_groupby操作
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()2、groupbydata.groupby(by='city')# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E48722CA08>data.groupby(by='city').max()data.groupby(by='city').a原创 2020-07-02 23:30:44 · 352 阅读 · 0 评论 -
Pandas学习笔记04_简单的计算
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()2、数据的转置data.T3、数据的排序3.1 对一列数据进行排序data.sort_values(by='avg', ascending=False)3.2 对多列数据进行排序data.sort_values(by=['city', 'avg'], ascending=False)3.3 对avg薪资降序排序,并生成新的列ran原创 2020-07-02 23:08:56 · 114 阅读 · 0 评论 -
Pandas学习笔记03_基本的查询
1、加载数据import pandas as pddata = pd.read_csv('dataanalysis.csv')data.head()# data.tail()# data.info()2、查询# 查询薪资>60,两种写法等同data.loc[data['avg']>60]data.query('avg>60')# 查询薪资>60的城市有哪些data.query('avg>60').city# 判断薪资>60的城市是否为成原创 2020-07-02 22:10:53 · 91 阅读 · 0 评论 -
Pandas学习笔记02_拿到数据后的基本操作
导包加载数据import pandas as pdpath = r"C:\Anaconda\Jupyter\Pandas数据分析从入门到实战\ant-learn-pandas-master\datas\beijing_tianqi\beijing_tianqi_2018.csv"data_tq = pd.read_csv(path, encoding="gbk").head(i) 查看数据集的前i行(i默认为5)data_tq.head()3. .tail() 查看数据的后几行.原创 2020-06-15 21:32:49 · 181 阅读 · 0 评论 -
Pandas学习笔记01_读取不同类型数据
读取不同文件时的写法1.1 读取txt文件# 1.1 读取txt文件import pandas as pdpath1 = '../Pandas数据分析从入门到实战/ant-learn-pandas-master/datas/crazyant/access_pvuv.txt'data_txt = pd.read_csv(path1, sep='\t', header=None, names=['pdate', 'pv', 'uv'])data_txt.head()1.2 读取csv文件.原创 2020-06-15 16:45:02 · 276 阅读 · 2 评论 -
数据分析_Python学习10之Pandas学习(Dataframe)
在这里插入代码片原创 2020-04-07 06:26:15 · 194 阅读 · 0 评论 -
数据分析_Python学习09之Pandas学习(Series)
Pandas基于两种数据类型:series和dataframeseries是pandas中最基本的对象,类似于一维数组。series和numpy不同,series可以为数据自定义标签(index)。1.创建series对象的几种方式:方式1.创建series对象并省略索引如果不带index参数,pandas会自动默认index进行索引,类似数组,索引值是[0,…, len(data)...原创 2020-04-06 16:12:57 · 201 阅读 · 0 评论