pandas
qq_30031221
浙江工业大学
展开
-
Pandas操作总结
Pandas小结具体操作详见:链接pandas概念开源的数据挖掘库 用于数据探索封装matplotlib,numpy创建DataFrame,修改index和columnspd.DataFrame(ndarry,index= ,columns= )创建日期pd.date_range()start – 开始日期end – 结束日期periods – 时间跨度 与end选其一即可freq – 统计时间方式行索引,叫index,axis=0列索引,原创 2020-08-29 22:07:51 · 343 阅读 · 0 评论 -
特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)
特征工程系列:数据清洗1.什么是特征工程2. 数据预处理3. 数据清洗拓扑图4. 格式内容清洗5. 逻辑错误清洗6. 异常值清洗6.1 异常值检查方法(3σ原则、箱线图分析)6.1.1 基于统计分析6.1.2 3σ原则6.1.3 箱线图分析6.2 数据光滑处理(分箱、回归)6.3 异常处理方法7. 缺失值清洗(删除、填充、不处理)7.1 数据填充方法(统计量统计、模型预测、插值法填充)7.1.2统计量统计7.1.3 模型预测填充7.1.4 插值法填充7.2 缺失总结1.什么是特征工程特征工程是利用原创 2020-11-03 16:12:05 · 7735 阅读 · 2 评论 -
利用pandas的chunksize分块处理大型csv文件
利用pandas的chunksize分块处理大型csv文件当读取超大的csv文件时,可能一次性不能全部放入内存中,从而无法加载,所以需要分块处理。在read_csv中有个参数chunksize,通过指定一个chunksize分块大小来读取文件,返回的是一个可迭代的对象TextFileReaderimport pandas as pd''' chunksize:每一块有100行数据 iterator:可迭代对象 '''reader = pd.read_csv('all_test.csv',chun原创 2020-11-02 12:02:03 · 1797 阅读 · 0 评论 -
数据分析之 假设检验
数据分析之 假设检验1. 检验总体的均值是否可靠——Z检验1.1 背景1.2 流程1.2.1 解决方法之 假设检验1.2.2 解决方法之 反证法1.2.3 悖论1.2.4 P-value与显著性水平1.3 假设检验 步骤 总结1.4 验证——Z检验1.4.1 代码1.5 单边拒绝域1.5.1 代码2. 单样本t检验2.1 背景2.2 步骤2.3 代码2.4 自由度3. 成对数据的t检验3.1 背景3.2 步骤3.3 代码4. 比率检验4.1 背景4.2 步骤4.3 代码5. A/B测试1. 检验总体的原创 2020-10-29 15:15:03 · 1972 阅读 · 0 评论 -
Pandas之透视表pivot_table
Pandas之透视表pivot_table1. 什么是pivot_table2. 如何操作pivot_table2.1 加载数据2.2 index参数2.3 values参数2.4 columns参数2.5 aggfunc参数2.6 查询3. 总结1. 什么是pivot_table透视表是一种可以对数据动态排布并且分类汇总的表格格式 pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=原创 2020-10-21 00:04:56 · 1878 阅读 · 1 评论 -
Pandas练习三
Pandas练习三【练习一】: 现有一份关于diamonds的数据集,列分别记录了克拉数、颜色、开采深度、价格,请解决下列问题:(a) 在所有重量超过1克拉的钻石中,价格的极差是多少?(b) 若以开采深度的0.2\0.4\0.6\0.8分位数为分组依据,每一组中钻石颜色最多的是哪一种?该种颜色是组内平均而言单位重量最贵的吗?(c) 以重量分组(0-0.5,0.5-1,1-1.5,1.5-2,2+),按递增的深度为索引排序,求每组中连续的严格递增价格序列长度的最大值。(d) 请按颜色分组,分别计算价格关于克拉原创 2020-09-03 12:25:06 · 649 阅读 · 0 评论 -
Pandas问题三
Pandas问题三【问题一】什么是fillna的前向/后向填充,如何实现?【问题二】 下面的代码实现了什么功能?请仿照设计一个它的groupby版本【问题三】 如何计算组内0.25分位数与0.75分位数?要求显示在同一张表上。【问题四】 既然索引已经能够选出某些符合条件的子集,那么filter函数的设计有什么意义?【问题五】 整合、变换、过滤三者在输入输出和功能上有何异同?【问题六】 在带参数的多函数聚合时,有办法能够绕过wrap技巧实现同样功能吗?【问题一】什么是fillna的前向/后向填充,如何实现?原创 2020-09-03 12:19:51 · 583 阅读 · 0 评论 -
Pandas练习二
Pandas练习二【练习一】 现有一份关于UFO的数据集,请解决下列问题:(a)在所有被观测时间超过60s的时间中,哪个形状最多?(b)对经纬度进行划分:-180°至180°以30°为一个经度划分,-90°至90°以18°为一个维度划分,请问哪个区域中报告的UFO事件数量最多?【练习二】 现有一份关于口袋妖怪的数据集,请解决下列问题:(a)双属性的Pokemon占总体比例的多少?(b)在所有种族值(Total)不小于580的Pokemon中,非神兽(Legendary=False)的比例为多少?(c)在第一原创 2020-09-02 17:16:09 · 728 阅读 · 0 评论 -
Pandas练习一
Pandas练习一【练习一】现有一份关于科比的投篮数据集,请解决如下问题:(a)哪种action_type和combined_shot_type的组合是最多的?(b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?(由于一场比赛会有许多次投篮,但对阵的对手只有一个,本题相当于问科比和哪个队交锋次数最多)【练习二】现有一份关于科比的投篮数据集,请解决如下问题:(a)哪种action_type和combined_shot_type的组合是最多的?(b)在所有被记录的game_id中,遭遇到原创 2020-09-02 17:07:29 · 814 阅读 · 0 评论 -
Pandas问题二
Pandas问题二【问题一】 如何更改列或行的顺序?如何交换奇偶行(列)的顺序?【问题二】 如果要选出DataFrame的某个子集,请给出尽可能多的方法实现。【问题三】 query函数比其他索引方法的速度更慢吗?在什么场合使用什么索引最高效?【问题四】 单级索引能使用Slice对象吗?能的话怎么使用,请给出一个例子。【问题五】 如何快速找出某一列的缺失值所在索引?【问题六】 索引设定中的所有方法分别适用于哪些场合?怎么直接把某个DataFrame的索引换成任意给定同长度的索引?【问题七】 对于多层索引,怎么原创 2020-09-02 15:20:55 · 432 阅读 · 0 评论 -
Pandas问题一
Pandas问题一【问题一】 Series和DataFrame有哪些常见属性和方法?【问题二】 value_counts会统计缺失值吗?【问题三】 如果有多个索引同时取到最大值,idxmax会返回所有这些索引吗?如果不会,那么怎么返回这些索引?【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。原创 2020-09-02 15:12:23 · 867 阅读 · 0 评论