numpy
文章平均质量分 75
JessieZeng aaa
这个作者很懒,什么都没留下…
展开
-
matplotlib_04_饼图
1、数据准备import matplotlib.pyplot as pltimport pandas as pdimport os plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False# 切换路径os.chdir('E:\学习文档\data')# 从excel读取数据data = pd.read_excel('cust.xlsx',encoding = 'utf-8',u原创 2020-10-17 15:14:27 · 129 阅读 · 0 评论 -
Pandas_08数据离散化
1、什么是数据的离散化连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。2、为什么要离散化为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具扔掉一些信息,可以让模型更健壮,泛化能力更强3、离散化之pandas.cut()等宽分箱或自定义分组等宽分箱import pandas as pdimport numpy as np'''pd.cut(x, bins,原创 2020-10-13 23:00:29 · 334 阅读 · 0 评论 -
Pandas_07透视表和交叉表
一、透视表透视表(pivottable)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上得分组建将数据分配到各个矩形区域中。在Python和pandas中,可以通过groupby功能以及(能够利用层次化索引的)重塑运算制作透视表。DataFrame有一个pivot_table方法,此外还有一个顶级的pandas.pivot_table函数。除了能为groupby提供便利之外,pivot_table还可以添加分项小计(也叫margins)。原创 2020-10-12 22:04:13 · 811 阅读 · 0 评论 -
Pandas_06数据聚合与分组运算
一、分组 (groupby)(一) groupby 对象1、分组运算过程:split->apply->combine拆分:根据提供的一个或多个键拆分成多组应用:每个分组运行的计算规则合并:把每个分组的计算结果合并起来2、分组操作:groupby()进行分组,GroupBy对象没有进行实际运算,只是包含分组的中间数据数据如下:按列分组 obj.groupby(‘label’)此时label为分组后数据的索引grouped =book_data.groupby('原创 2020-09-29 23:10:02 · 413 阅读 · 0 评论 -
Pandas_05数据清洗(重复值、缺失值以及异常值的处理)
一、重复值处理一般保留第一条重复数据,对其他重复数据进行移除。判断重复值 df.duplicated'''df.duplicated(subset=None, keep='first')参数说明:subset:列标签,默认使用所有列,若只考虑用某些列来识别重复项,可指定列keep,默认first,保留重复值的第一项, 也可以指定last,保留最后一项重复值数据返回的是一个视图'''数据:判断重复数据tran_data.duplicated()T原创 2020-09-26 13:02:30 · 2563 阅读 · 0 评论 -
Pandas_04合并数据集
一、合并数据集1、pandas.merge :根据一个或多个键将不同DataFrame中的行连接起来。2、pandas.concat: 可以沿着一条轴将多个对象堆叠到一起3、实例方法conbine_first: 将重复数据编结到一起,用一个对象中的值填充另外一个对象的缺失值。二、pandas.merge:数据库风格的DataFrame合并数据准备:import pandas as pdimport osos.chdir('E:\学习文档\data')os.getcwd()stud原创 2020-09-25 00:33:18 · 788 阅读 · 0 评论 -
Pandas_03层次化索引
一、层次化索引:在一个轴上拥有多个索引(两个及以上),它使得我们能以低纬度形式处理高纬度数据。层次化索引在数据重塑和基于分组的操作(透视表的生成)中扮演重要角色。简单的说,层次化索引就是轴上有多个级别的索引。二、带层次化索引的Series数组对象1、创建带层次化索引的Series数组对象import pandas as pdimport numpy as npdata = pd.Series(np.random.randint(1,10,10),index=[['a','a','a','b'原创 2020-09-24 20:11:17 · 644 阅读 · 0 评论 -
Pandas_02索引及增删改查
一、索引1、索引的基本设置1.1、设置行索引DataFrame.set_index() 设置索引准备数据:import pandas as pdstock_data = pd.read_csv('File/csv_files/stock_day.csv')# pd.head()默认查看前五行数据stock_data.head()设置索引'''DataFrame.set_index(keys, drop=True, append=False, inplace=False, v原创 2020-09-22 01:29:03 · 398 阅读 · 0 评论 -
Pandas_01基本数据结构(Series、DataFrame)
一、基本数据结构1、Series:带标签(行索引)的一维同构数组长度不可改变2、DataFrame:既有行索引、又有列索引的二维异构数组大小可变二、Series的创建及其属性1、创建Series数组import pandas as pdimport numpy as np'''pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)参数说明: data:数组原创 2020-09-21 20:02:09 · 809 阅读 · 1 评论 -
Numpy_07_随机数详解
一、随机数通过random模块生成随机数生成的都是伪随机数(依赖于我们给的初始种子)1、生成随机整数np.random.randint()创建指定区间[low, high)的随机整型数组 '''np.random.randint(low, high=None, size=None, dtype='l')参数说明:low:int类型,数据范围下限high:int类型,数据范围上限size:数组形状,int或元组类型函数作用:返回指定区间[low, high)的整型数组'''原创 2020-09-21 02:07:37 · 302 阅读 · 0 评论 -
Numpy_06_字符串处理(常用字符串函数详解)
Numpy提供了char模块,运用向量化运算方式处理字符串数据。char模块提供常用的字符串操作函数,如连接、切片、删除、替换等原创 2020-09-20 23:39:21 · 2583 阅读 · 0 评论 -
Numpy_05_文件的读取与存储
一、文件的读取1、np.genfromtxt():可读取csv、txt类型文件'''np.genfromtxt(frame,skip_header,dtype,usecols,encoding=,delimiter=None)常用参数说明:frame:带路径或不带路径的文件skip_header:指定从第几行开始读取文件(通常skip_header = 1,跳过第一行的列名,从第二行开始读取)dtype:指定读取出来存储的数据类型usecols:(list)指定需要读取的列(指定列的索引原创 2020-09-20 19:43:03 · 671 阅读 · 0 评论 -
Numpy_04_数组的运算与排序
一、NumPy运算特点:1、向量化运算,运算速度快。2、利用广播机制,对不同形状的数组进行算数运算。3、数组通用函数能对数组中所有元素进行操作。二、数组运算1、算数运算1.1、算数运算符import numpy as np# 准备数据a = np.array([2,4,1])a# array([2, 4, 1])# 数组与数进行加法运算a + 1# array([3, 5, 2])# 数组与数进行除法运算a / 2array([1. , 2. , 0.5])'''原创 2020-09-19 23:36:10 · 454 阅读 · 0 评论 -
Numpy_04_ndarray数据形状的变换(一维到多维、多维变一维、数据合并等)
一、修改数组的形状( 一)、单个数组形状的修改1、数组形状的普通修改1.1、ndarry.reshape()'''reshape(shape)shape:填入生成的数组形状(元组)特点:1、有返回值,返回一个视图2、不直接作用于原数组(不改变原数组的形状)'''import numpy as npn1 = np.array([[2,4,3,2],[8,4,2,9],[8,3,4,9]])n1# array([[2, 4, 3, 2],# [8, 4, 2,原创 2020-09-19 17:58:12 · 11296 阅读 · 0 评论 -
Numpy_01_NumPy简介(NumPy数组与Python原生数组之间的区别)
一、定义:1、NumPy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。2、NumPy的核心是ndarray对象(n–任意个,d–dimension维度,array–数组),ndarray对象有属性和方法。封装了python原生的同数据类型的 n 维数组。(可以理解为具有相同数据类型的item的集合)原创 2020-09-18 21:36:50 · 782 阅读 · 0 评论 -
NumPy_03_视图与拷贝
一、拷贝与视图(一)拷贝1、浅拷贝:对另外一个变量的内存地址的拷贝,这两个变量指向同一个内存地址的变量值。(如果其中一个变量的值改变,另外一个也会改变。)(1)np.asarray(a, dtype=None, order=None)(2)数组b = 数组a2、深拷贝:一个变量对另外一个变量的值拷贝特点:(1)两个变量指向的内存地址不同(2)拷贝完后,变量之间值的改变互不影响ndarray.copy()(二)视图ndarray.view()创建一个查看相同数据的新数组对象,原创 2020-09-15 14:09:49 · 197 阅读 · 0 评论 -
Numpy_02_ndarry对象
一、定义:1、NumPy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。2、NumPy的核心是ndarray对象(n–任意个,d–dimension维度,array–数组),ndarray对象有属性和方法。封装了python原生的同数据类型的 n 维数组。(可以理解为具有相同数据类型的item的集合)原创 2020-09-14 21:59:08 · 816 阅读 · 0 评论