- 博客(19)
- 收藏
- 关注
原创 (七)Pandas数据分组统计
根据给定的条件将数据拆分成组每个组可以独立应用函数(如sum())将结果合并到一个数据结构中按照单列分组计算按照多列分组计算按照指定列分组计算。
2023-09-15 20:27:26 516
原创 (六)Pandas数据排名、计算、格式化
kind:指定排序算法,值为’quicksort’(快速排序)、’mergesort’(混合排序)或’heapsort’(堆排),默认值为quicksort。ignore_index:布尔值,是否忽略索引,值为True标记索引(从0开始按顺序的整数值),值为False则忽略索引。na_position:空值(NaN)的位置,值为first空值在数据开头,last空值在最后,默认值为last。dense:密集排名,类似最小值排名,排名相同的数据只占一个名次。axis:轴,0表示行,1表示列,默认行排序。
2023-09-14 20:11:21 459 1
原创 (五)Pandas数据增删改
默认值为False,如果值为True,那么原数组直接就将被替换。使用DataFrame对象的columns属性直接赋值。修改行标题使用DataFrame对象的index属性。使用DataFrame对象的loc属性和iloc属性。使用DataFrame对象中的drop方法()使用DataFrame对象的rename方法。columns:删除列,默认值为None。index :删除行,默认值为None。labels:表示行标签或列标签。axis=0表示按行删除。axis=1表示按列删除。
2023-09-13 20:22:22 192
原创 (四)pandas数据抽取(提取)
以行和列位置索引(即:0,1,2,...)作为参数, 0表示第一行,1表示第2行,以此类推。当 只有一个参数时,默认是行索引,即抽取整 行数据,包括所有列。以列名(columns)和行名(index)作为参数, 当只有一个参数时,默认是行名,即抽取整 行数据,包括所有列。需要注意的是,用loc进行切片操作时,是会取到end的值的,而iloc不会。前面也提到过,用标签索引切片包含end值,用序号索引切片不包含end值。
2023-09-12 19:05:38 325
原创 (三)Pandas导入外部数据
header:指定作为列名的行,默认值为0,即取第一行的值为列名。数据为除列名以外的数据,若数据不包含列表,则设置header=None。header:默认值为0,取第一行的值为列名,数据为除列名以外的数据,如果数据不包含列名,则设置header=None。filepath_or_buffer:字符串、文件路径,也可以是URL链接。io:字符串、文件路径,了可以是URL链接,网址不接受https。encoding:字符串,默认值为None,文件的编码格式。sheet_name:表示工作表,取值如下表所示。
2023-09-11 20:06:15 157
原创 (二)Pandas——DataFrame对象
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。:一组数据(ndarray、series, map, lists, dict 等类型)。:列标签,默认为 RangeIndex (0, 1, 2, …Pandas DataFrame 是一个二维的数组结构,类似二维数组。:拷贝数据,默认为 False。:索引值,或者可以称为行标签。
2023-09-10 20:19:42 273 1
原创 (一)Pandas——Series对象
data数据也可以是字典类型(键为标签),可以通过 index 来控制字典类型的输出,对于不存在的索引,默认值为NaN。Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。位置索引切片不包含end,标签索引切片包含end。:数据索引标签,如果不指定,默认从 0 开始。我们可以指定标签索引也可以指定位置索引。:一组数据(ndarray 类型)。:拷贝数据,默认为 False。:数据类型,默认会自己判断。获取索引 s.index。获取值 s.values。
2023-09-10 20:11:48 291 1
原创 (五)Numpy数组操作之添加与删除
追加操作会分配整个数组,并把原来的数组复制到新数组中。numpy.delete 函数返回从输入数组中删除指定子数组的新数组。与 insert() 函数的情况一样,如果未提供轴参数,则输入数组将展开。插入没有原地的,函数会返回一个新数组。:可以被切片,整数或者整数数组,表明要从输入数组删除的子数组。如果新数组大小大于原始大小,则包含原始数组中的元素的副本。:沿着它删除给定子数组的轴,如果未提供,则输入数组会被展开。:沿着它插入的轴,如果未提供,则输入数组会被展开。,返回去重数组中的元素在原数组中的出现次数。
2023-09-09 21:14:45 575
原创 (五)Numpy数组操作之数组分割
numpy.hsplit 函数用于水平分割数组,numpy.vsplit 沿着垂直轴分割,通过指定要返回的相同形状的数组数量来拆分原数组。:设置沿着哪个方向进行切分,默认为 0,横向切分,即水平方向。为 1 时,纵向切分,即竖直方向。:如果是一个整数,就用该数平均切分,如果是一个数组,为沿轴切分的位置(左开右闭)
2023-09-09 21:10:15 187
原创 (五)Numpy数组操作之连接数组
numpy.hstack 是 numpy.stack 函数的变体,它通过水平堆叠来生成数组。numpy.vstack 是 numpy.stack 函数的变体,它通过垂直堆叠来生成数组。:返回数组中的轴,输入数组沿着它来堆叠。:沿着它连接数组的轴,默认为 0。
2023-09-09 21:08:27 80
原创 (五)Numpy数组操作之翻转数组
这两个轴转换的函数比较抽象,最好是借助立体事物去理解,或者找出轴转换后的规律,不过用到的应该不会多。:默认为零,表示完整的滚动。:整数列表,对应维度,通常所有维度都会对换。:要向后滚动的轴,其它轴的相对位置不会改变。:对应第一个轴的整数。:对应第二个轴的整数。
2023-09-09 21:04:07 116
原创 (五)NumPy数组操作之改变数组形状
方法返回一个视图(view)或者拷贝(copy)的一维数组,如果原数组是多维的,返回的是一个与原数组共享数据的一维数组,该数组的修改会影响原数组。方法返回的是一个视图或者拷贝的数组,其不会分配额外的内存空间,而是与原数组共享数据,因此在对返回的数组进行修改时,会影响到原数组。方法返回的是一个视图或者拷贝的一维数组,其返回的数组会尽可能地保持和原数组的数据类型一致,但在某些情况下可能会返回一个新的数组。方法返回一个拷贝的一维数组,无论原数组是几维的,返回的都是一维数组。
2023-09-09 20:58:42 96
原创 (四)Numpy 创建数组
它们之间的区别在于:numpy.zeros 可以直接指定要创建的数组的形状,而 numpy.zeros_like 则是创建一个与给定数组具有相同形状的数组。单位矩阵是一个正方形矩阵,其对角线上的元素全为1,其余元素全为0。numpy.zeros 和 numpy.zeros_like 都是用于创建一个指定形状的数组,其中所有元素都是 0。numpy.zeros_like 用于创建一个与给定数组具有相同形状的数组,数组元素以 0 来填充。参数,但它可以在创建新数组时指定数据类型,即使输入数据是NumPy数组。
2023-09-05 20:39:28 1153 1
原创 (三)Numpy的数组属性
NumPy数组的维度被称为秩(rank),秩指的是轴的数量,也就是数组的维度。比如一维数组的秩是1,二维数组的秩是2,以此类推。在NumPy中,每个数组都有一个或多个轴(axis),也就是维度。可以把二维数组看作是由多个一维数组组成的,其中第一个轴是底层数组,第二个轴是底层数组内的元素。因此,轴的数量就是数组的维度。在很多情况下,我们可以指定轴进行操作。axis=0表示沿着第一个轴进行操作,即对每一列进行操作;axis=1表示沿着第二个轴进行操作,即对每一行进行操作。下面我将举几个例子。
2023-09-05 20:15:39 76 1
原创 (二)Numpy数据类型
numpy 支持的数据类型比 Python 内置的类型要多很多,基本上可以和 C 语言的数据类型对应上,其中部分类型对应为 Python 内置的类型。下表列举了常用 NumPy 基本类型。
2023-09-03 15:57:08 84
原创 (一)NumPy Ndarray对象的介绍
Numpy是一个功能强大的库,它提供了一个重要的对象,即N维数组(Ndarray)。N维数组就是一组相同类型数据的集合,而且我们可以通过索引来访问这些数据。可以把N维数组看作是一块内存中存储的数据,它的每个元素都占用相同的存储空间。N维数组由以下几个部分组成:数据(Data):Ndarray对象中存储的实际数据。数据可以是任意类型的,如整数、浮点数、布尔值等。数据以一维数组形式存储,但可以通过索引和切片操作来访问和处理多维数据。维度(Dimension):Ndarray对象中数据的维度信息。
2023-09-03 15:39:53 101
原创 初入数据分析
接下来我将罗列出自己目前了解的学习技术分析所需要的技术栈,也就是自己目前的学习路线:(1)Python基础我们需要掌握Python的基础语法,特别是分支结构、循环语句、函数以及数据类型的用法等,这在我们分析数据时是一定会用到的,其他的比如面向对象之类的只要了解就可以了。(2)MySQL将MySQL排在第二的原因是我们之后学习爬虫也好又或者学习其他的,不可避免的会对数据库进行操作,数据库的学习也不需要太深入,会基本的数据库和表创建以及增删改查即可,重点要掌握的是数据库的查询。
2023-09-03 14:12:23 262
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人