数据分析
文章平均质量分 51
python-行者
这个作者很懒,什么都没留下…
展开
-
python-数据分析-(12)pandas数据清洗、缺失值、重复值、异常值处理常见方法
一.导入模块 import pandas as pdfrom scipy.interpolate import interp1d 二.读取excel文件 data=pd.read_excel(r'E:\pythonwork\数据分析\11.数据清洗\人事终表 (1).xlsx').tail(10)print(data)''' Unnamed: 0 部门 姓名 应发数 发放时间 绩效 合计工资108 108 讲解员(6人.原创 2021-01-08 13:53:16 · 4775 阅读 · 0 评论 -
python-数据分析-(11)pandas聚合函数、透视表、交叉表、表格合并常见操作
一 聚合函数1. numpy、pandas使用的统计方式在数组中经常使用的聚合方式data[['counts', 'ches_name']].agg([np.mean, np.std])agg({'xx':np.mean, 'xx2':[np.sum, np.std]})2. 在pandas或者numpy中没有现成的函数可以使用,可以使用transform自定义函数如: 将指定列的全部数据 * 2方式一data['counts'].transform(lambda x: x*2)方式二原创 2021-01-04 21:31:11 · 2591 阅读 · 16 评论 -
python-数据分析-(10)pandas时间处理、字符串处理、分组聚合、去重排序常见操作
pandas在数据清洗过程,难不了会特定的列或者行进行操作,就需要特殊的指令操作,在这里收集了常见的操作指令。希望能在工作中帮给您一定的帮助。我这本文章中先导入包,读取了本地的一个文件,内容有字符串、时间。# import导入模块import pandas as pdimport numpy as np# 读取Excel文件data = pd.read_excel('./meal_order_detail.xlsx')print(data.shape) # (2779, 19) 查看结构原创 2020-12-31 21:21:39 · 3040 阅读 · 0 评论 -
python-数据分析-(9)pandas(Excel、csv)文件读写操作,常见参数分析
一、pandas中Excel文件常见操作基本语法# import导入模块import pandas as pdimport numpy as np# 读取文件,在这里我读取的是本地文件,也可以直接传入绝对路径s1 = pd.read_excel('./meal_order_detail.xlsx') s2 = pd.read_excel('C:\Users\Administrator\Documents\Tencent Files\1661157270\FileRecv\meal_orde原创 2020-12-31 20:31:12 · 2275 阅读 · 0 评论 -
python-数据分析-(8)pandas初识
pandaspandas是基于Numpy的一种工具,该工具是为解决数据分析任务而创建的,pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需要的的工具,pandas提供了大量能使我们快速便捷地处理数据的函数和方法。表格数据操作(增删改查)实现多个表格的处理数据清洗操作:缺失值、重复值、异常值、数据标准化、数据转换的操作实现所有的excel的特殊操作:生成透视表、交叉表完成统计分析一、pandas的创建import pandas as pd1、表结构数据,构建D原创 2020-12-30 18:27:45 · 1309 阅读 · 15 评论 -
python-数据分析-(7)matplotlib子图的绘制
matplotlib多个图形的绘制import导入模块import numpy as npimport matplotlib.pyplot as plt可以用子图来将图样(plot)放在均匀的坐标网格中。用 subplot 函数的时候,你需要指明网格的行列数量,以及你希望将图样放在哪一个网格区域中。此外,gridspec 的功能更强大,你也可以选择它来实现这个功能。设置参数# 画布参数# 1 修改字体plt.rcParams['font.sans-serif'] = 'SimHei'#原创 2020-12-25 20:57:24 · 1802 阅读 · 13 评论 -
python-数据分析-(6)matplotlib绘图
matplotlibmatplotlib是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。pylabpylab 是 matplotlib 面向对象绘图库的一个接口。它的语法和 Matlab 十分相近。也就是说,它主要的绘图命令和 Matlab 对应的命令有相似的参数。下载: pip install matplotlibimport导入模块import matplotlib.pyplot as pltimport numpy as np原创 2020-12-25 20:42:38 · 1869 阅读 · 15 评论 -
python-数据分析-(5)numpy常用操作
numpy常用操作1、 unique: 去重(1)一维数组去重:直接将一维数组中的元素进行去重arr = np.array([2,3,4,3,2,2,3,4,2,2,3,4])[2 3 4 3 2 2 3 4 2 2 3 4]print(np.unique(arr))[2 3 4](2)二维数组去重:默认,unique(arr),axis = None,会将所有的元素先转化为一维数组,再进行去重axis = 0/1, 整行或者整列进行排序,将行(列)中重复的元素去重,返回每行(列)去重原创 2020-12-25 20:26:08 · 1101 阅读 · 10 评论 -
python-数据分析-(4)numpy数组的运算
数组的运算数组的运算:对应元素的运算,结构完全相同(1) 四则运算:+ - * / ** %import numpy as nparr1 = np.arange(1,17).reshape((4,4))# print(arr1)arr2 = np.diag([2,3,1,5]) # 创建一个对角数组# print(arr2)arr3 = arr1 * arr2 # 乘法# print(arr3)arr4 = arr2 / arr1 # 除法 被除数不能为0# print(ar原创 2020-12-24 16:56:33 · 510 阅读 · 0 评论 -
python-数据分析-(3)numpy数组的创建
numpy数组的创建数组的创建以及常用操作一、特殊的创建数组import numpy as np1、 arange 起始位置,终止位置,步长arr3 = np.arange(1, 10,2)print(arr3)[1 3 5 7 9]2、 linspace 起始位置,终止位置,显示的个数给出初始位置,差数,显示个数,求最后一个数起始位置 + (个数-1)*(差数) = 最后一个数# a1=8 d=-1 n=7# # 8 + (7-1)*(-1) = 2 arr5原创 2020-12-24 16:55:19 · 1687 阅读 · 1 评论 -
python-数据分析-(2)numpy初识
一、 numpy 矩阵numpy(Numerical python)是python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库numpy : 计算模块; 主要有两种数据类型:数组、 矩阵特点: 运算快【】 + 【】import numpy as np1、numpy创建矩阵mat1 = np.mat("1 2 3; 2 3 4; 1 2 3")print(mat1)print(type(mat1))[[1 2 3] [2 3 4] [1原创 2020-12-23 21:15:04 · 319 阅读 · 3 评论 -
python-数据分析-(1)线性代数
线性代数一、矩阵1、什么是矩阵?矩阵是一种按照长方阵排列的包含复数和实数的集合2、矩阵转换就是把生活中的一列数或者方程式转换为矩阵3、特殊矩阵只有一行的矩阵: 行矩阵、行向量 A = (A1, A2 ... An) 只有一列的矩阵: 列矩阵 [[1 ] A = [0 ] [0 ]]对角矩阵: 只有对角线有数据,其他为0的矩阵 [[1. 0. 0.] A = [0. 2. 0.]原创 2020-12-23 20:07:27 · 345 阅读 · 0 评论