自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 [Pandas]时序数据

可以向Cday或CustomBusinessDay类传入节假日参数来自定义一个工作日偏移对象#定义出五一劳动节的日期#自定义工作日中传入休假日期,一个正常星期工作日的顺序#指定一个日期#偏移两个工作日BusinessHour 表示开始和结束工作的小时时间,默认9-17点,与时间相加超过一个小时会移到下一个小时,超过一天会移动到下一个工作日可以自定义开始和结束工作的时间,格式必须是hour:minute字符串,不支持秒、微秒、纳秒#11点开始上班。

2022-10-29 17:20:49 514 1

原创 [pandas]数据重塑与透视

这些参数传入的是原数据的列名。index如果不传入,会使用现有索引。columns作为新DataFrame的列,取去重的值,当列和索引的组合有多个值时会报错,需要用pd.pivot_table()进行操作。values作为新DataFrame的值,若指定多个,会形成多层索引,若不指定,会默认为所有剩余的列。

2022-10-29 10:56:18 518

原创 [时序数据分析]一、窗口计算

窗口选择逻辑示意: 移动窗口rolling()和groupby很像,但没有固定的分组,而是创建一个按一定移动位移动的移动窗口对象。一个数据会参与到多个窗口(集合、分组)中,而groupby中的一个值只能在一个组中下图演示了一个典型的移动窗口,对原数据按照固定大小的窗口依次移动,直至全部覆盖数据“扩展”(expanding)是从数据(大多数情况下是时间)的起初处开始窗口,增加窗口直到指定的大小。一般所有的数据都会参与所有窗口下图是一个典型的扩展窗口,设置了一个最小起始窗口,然后逐个向后扩展,实现类似累加的效果

2022-10-22 15:23:52 976

原创 [深入浅出pandas]ch5高级操作

对DataFrame其中一列进行逻辑计算,会产生一个对应的由布尔值组成的Series也可针对索引进行逻辑判断除了支持逻辑运算,Pandas还支持组合条件的Python位运算。

2022-10-19 22:23:26 755

原创 [爬虫案例]实现多页批量文件爬取问询函信息

定位网页上某个按钮时,总是报错元素定位不到,具体如下:NoSuchElementException: Message: no such element: Unable to locate element。3.在写入文件时,一定要注意文件名不能有非法字符,不然会报错。在进行替换时,要注意有一些符号本身在正则表达式里就有特殊含义,比如*,这些特殊符号在使用re.sub()进行替换时,注意转义。需要额外导入一个包,其实不是 xpath 的问题,是因为脚本执行到这一行代码时,对应页面上的元素还没加载完成,

2022-10-12 14:24:59 457

原创 [数据分析]------数据清洗与准备

pandas的目标之一就是尽可能无痛地处理缺失值,例如pandas对象的所有描述性统计信息默认情况下是排除缺失值的。对于数值型数据,pandas使用浮点值NaN(Not a number)来表示缺失值,在pandas中,我们将缺失值称为NA(not available)。在统计学应用中,NA数据可以是不存在的数据或者是存在但不可观察的数据(例如在数据收集过程中出现了问题)。当清洗数据用于分析时,对缺失数据本身进行分析以确定数据收集问题或数据丢失导致的数据偏差通常很重要。

2022-10-06 22:03:09 312

原创 [Pandas]Groupby函数

要输出具体的结果详情可以用for循环读取(参考下文举例中的代码),其中每个分组结果中包含 分组名称(下文举例代码中:name)和分组记录(下文举例代码中:group)作用就是对DataFrame进行分组,可以单类分组,也可以多类分组。对DataFrame中的部分数据进行划分。

2022-10-05 13:17:09 332 1

原创 [Pandas]一些笔记(利用Python进行数据分析)

Pandas对象装配了一个常用数学、统计学方法的集合,其中大部分属于归约或汇总统计的类别,这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值(如总和或平均值)。在使用这些方法时,除非整个切片上都是NA,否则NA值是被自动排除的,可以通过禁用skipna来实现不排除NA值。规约方法可选参数:一些方法,比如idxmin和idxmax,返回的是间接统计信息,比如最小值或最大值的索引值除了归约方法外,有的方法是积累型方法,比如cumsum。

2022-10-03 18:48:44 435 1

原创 [Numpy]一些笔记(利用Python进行数据分析)

布尔值数组的长度必须和数组轴索引长度一致。还可以用切片或整数值对布尔值数组进行混合和匹配。若想排除某些数据,可以使用!=或在条件表达式前使用~对条件取反。可以使用astype方法显式的转换数组的数据类型。(在这里,and和or没用,要使用符号&和|)(~符号可以在想要对一个通用条件取反时使用)1.1.1NumPy的数据类型。

2022-10-01 19:19:04 275 1

原创 【函数】匿名(lambda)函数

函数声明时使用def关键字,返回时使用return关键字。可以有多条返回语句,如果Python达到函数的尾部时仍然没有遇到return语句,就会自动返回None。每个函数都可以有位置参数和关键字参数。关键字参数常用于指定默认值和可选参数。内建的functools模块可以使用partial函数简化这种处理。

2022-10-01 16:51:38 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除