自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

J-X的博客

记录每一次学习的点滴

  • 博客(5)
  • 收藏
  • 关注

原创 pandas时间序列

时间序列是一种重要的结构化数据形式。 时间序列的数据意义取决于应用的场景: 1.时间戳(timestamp)  : 特定的时刻 2.固定时期(period),如2018年的8月 3.时间间隔(interval):   由起始的时间戳和结束的时间戳决定.时期(period)可以被看作时间间隔的特列,因为时间间隔过长,可以去这样想 可能我们经常见到或用到的索引就是时间戳。   1.日期和...

2018-08-23 10:24:12 290

原创 pd字符串处理

先说明一下,这些知识,也是我在学习有些书籍,然后写的知识点,也是用自己的理解写出来,例子有些是自己添加,有些是和书籍上一样的,是看我是否写错。我写这些博客也是自己学习的痕迹和以后方便自己复习,再回顾。所以本人也是一个学生。 1.python很多内建方法很适合处理string。2.而对于更复杂得模式,可以配合正则表达式。而pandas则混合了两种方式。 1.字符串对象方法 大部分字符串可以使用...

2018-08-12 21:48:25 1521

原创 pandas数据变换(二)

5.离散化和装箱 连续型数据经常离散化或分散成bins(分箱)来分析。 假设又一组数据,数据代表不同的年龄,把人分到不同的年龄组 import numpy as pd import pandas as pd from numpy import nan as NA ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] #把上诉年龄下...

2018-08-09 16:52:15 1535 1

原创 pandas数据变换(一)

1.删除重复值 import numpy as np import pandas as pd data=pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,3,4,4]}) print(data) #输出: k1 k2 0 one 1 1 two 1 2 one 2 3 two 3 4 one ...

2018-08-09 10:05:24 1481

原创 pandas数据清理

在数据分析中,80%的时间是用于数据清理。 1.对于数值型数据,pandas用用浮点值NaN来表示缺失值,称之为标识符,这种值能被轻易检测到。 在pandas中,把缺失值表示NA 内建的python None也表示缺失值NA import numpy as np import pandas as pd obj=pd.Series(['li','xun',np.nan,'big']) p...

2018-08-08 14:45:41 1443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除