![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 55
逆游的鲤鱼
鲤鱼经过99.99%的尝试才能换来最后一次精彩跳跃。
展开
-
pandas学习之综合练习
总结1、任务1:①、首先我们解读题目:需要模型名称、训练状态或推断状态、数值。状态是float, half, double三种,Training表示训练,Inference表示推断。②读取数据import pandas as pd import numpy as npimport iodf=pd.read_csv('benchmark.txt',sep='\r\t') # 我们发现分隔符是换行符df.head(11) # 查看数据数据解读,从以下结果看出,我们要的数据是从第10行原创 2021-01-13 20:30:28 · 199 阅读 · 0 评论 -
pandas学习之时序数据
感想时序数据处理太难了,很多知识点没有搞明白。先把自己理解清楚的内容记录下。1、首先需要知道,时间变量在python系统中是以时间戳类型保存的,由日期和时间共同组成,即Timestamp,精确到ns。2、date_range 是一种生成连续间隔时间的一种方法,其重要的参数为 start, end, freq, periods ,它们分别表示开始时间,结束时间,时间间隔,时间戳个数。这里重点说明下,freq和periods 的区别:freq:是在时间间隔后找不到该日期,会舍弃不填充数据;呈现格式是依原创 2021-01-10 18:42:17 · 248 阅读 · 0 评论 -
pandas学习之分类数据
感想pandas处理分类变量的方法有:cat、get_dummies、cut和qcut。cat需先把特征转换为category 类型,然后调用codes转换为分类变量。get_dummies是采用广播方式把各类型提取为特征,并用0和1来表示分类变量,升维操作。cut和qcut分箱操作,主要是针对数值型数据处理转换为区间类型。1、category 类型使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用 astype 方法s = df.Grade.astype('category'原创 2021-01-07 18:59:48 · 1027 阅读 · 0 评论 -
pandas学习之文本数据
感想pandas常用文本操作函数有九种。①、字母型函数:upper, lower, title, capitalize, swapcase②、数值型函数:pd.to_numeric③、统计型函数:count 和 len④、格式型函数:strip, rstrip, lstrip,pad, rjust, ljust, center,zfill⑤、替换型函数:replace⑥、拆分型函数:split⑦、合并型函数: join 和 cat⑧、匹配型函数:contains 、startswith 、原创 2021-01-05 21:57:21 · 158 阅读 · 1 评论 -
pandas学习之缺失数据
感想今天总结下缺失数据处理心得。在拿到数据、拼接数据、汇总数据时,一定要使用df.isna().sum()或df.isna().mean()观察是否存在缺失数据,后一个方法还可以检测出缺失数据占比。(我今天在使用groupby汇总数据时,忘记查看缺失数据,导致结果不全,白白浪费1个小时时间)因时间关系,我就简单讲解下常用处理缺失数据思路。1、pandas自带缺失值处理方法fillna(),在 fillna 中有四个参数是常用的: value, method, limit,inplace 。其中, va原创 2021-01-03 20:00:33 · 173 阅读 · 0 评论 -
pandas学习之练习题解读
解题1、【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:I=− ∑p(xi)log(p(xi))其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I 。思路:首先,我们看下两个表的数据存在两个问题:①、证券代码数据及数据类型不原创 2021-01-01 12:15:12 · 321 阅读 · 0 评论 -
pandas学习之连接
感想连接是pandas中最重要的操作,平时经常要与它打交道。因为平时遇到的数据多个数据源的,需要把涉及的数据源全部拼接一起。按方式划分,可分成外连接、内连接、右连接、左连接。逻辑同SQl中对应连接功能。按关联方式划分,可分为值连接、索引连接、方向连接及拼接。1、python中连接的函数有:merge、join、concat、append 和 assign 。2、一般两个字段及字段含义不相同表之间连接使用merge。3、concat相当于纵向连接,会自动广播,若表之间有共同的字段,相当于在第一个表原创 2020-12-29 22:26:34 · 736 阅读 · 0 评论 -
pandas学习之变形
感想首先,pandas变形工具有:pivot、pivot_table、melt、wide_to_long、stack、unstack、crosstab、explode、get_dummies。1、pivot与pivot_table这两个函数,就相当于excel表的数据透视功能。两者的区别是:pivot:不需要聚合函数;每行数据是唯一的,不存在重复数据,否则报错。pivot_table:用到聚合函数,可实现维度变化的数据统计功能2、meltmelt 和 pivot 是一组互逆过程。3、sta原创 2020-12-27 22:44:34 · 243 阅读 · 0 评论 -
pandas学习之分组
感想分组(Groupby):是python数据处理必备武器。groupby返回的结果是DataFrameGroupBy对象,需要和聚合函数组合产生新的DataFrame。df.groupby([‘分组类别’]).ngroups:查看分组组数df.groupby([‘分组类别’]).groups.keys():查看各分组组别名称df.groupby([‘分组类别’]).describe():查看各分组组别各描述性统计数据参考资料:https://datawhalechina.github.io/j原创 2020-12-25 20:15:33 · 338 阅读 · 0 评论 -
pandas学习之索引
感想近期,公司业务繁忙,学习时间受限,只能插空看教材,然后有时间再把自己不会的知识点,用Notebook演练一把。有人会说,上班没时间可以周末呀,我们公司是单休,有时还要在周日加班整理下周周一开会需要的资料。本周的知识点,看了两遍,习题无法全部完成,本次分享我的一些想法及个别题目的解题内容。1、索引索引是python中最重要的工具,会有很多索引方法,我们并不一定要全部完全掌握,但我们一定要熟练掌握其中2-3种,如loc和iloc,只有专精才能全通。一般地,单层索引用起来方便舒适;平时使用习惯使用r原创 2020-12-22 20:09:34 · 114 阅读 · 0 评论 -
pandas学习之pandas基础
感想一、窗口对象pandas 中有 3 类窗口,分别是滑动窗口 rolling 、扩张窗口 expanding 以及指数加权窗口 ewm。1、rolling():移动窗口,常用参数windowab= pd.Series([1,2,3,4,5,6,7,8,9,10])ab.rolling(window=2).sum()返回结果:很容易发现,window参数就相当于一个移动切片,从第window个数据开始往前截取window个数据。 小练习: rolling 对象的默认窗口方向都是向前的原创 2020-12-18 21:53:08 · 5171 阅读 · 0 评论 -
pandas学习之Python基础
感想经常使用的几个小技巧:1、使用pandas必须导入两个包:import numpy as npimport pandas as pd2、当数据字段超过20个以上,需要使用以下语句来展示全部列:#显示所有列pd.set_option('display.max_columns', None)#设置value的显示长度为100,默认为50pd.set_option('max_colwidth',100)3、2个常用函数、2个常用方法:info():用于查看各字段数据类型、行数及是否存原创 2020-12-16 20:46:05 · 154 阅读 · 1 评论