python之数据大清洗
向着朝阳,我走过冬夜寒冬
这个作者很懒,什么都没留下…
展开
-
数据大清洗_Pyecharts 可视化(安装Pyecharts )(Pyecharts 图表绘制)
目录一、Pyecharts 认识(一)对 Pyecharts 认识(二)安装:二、Pyecharts 图表绘制(一)Pyecharts 绘制图表理解1、全局配置项2、系列配置项3、注意:数据格式(二)图表绘制1、柱状图2、饼图3、玫瑰图一、Pyecharts 认识(一)对 Pyecharts 认识Pyecharts 是一个用于生成 Echarts 图表的类库。Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。Pyecharts 是一个用于生成 Echarts 图表的类库。实际原创 2020-06-23 23:27:21 · 1290 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(标准化数据)(转换数据)
目录一、标准化数据(一)离差标准化数据(二)标准差标准化数据(三)小数定标标准化数据(四)三种标准化的特点:二、转换数据(一)哑变量处理类别数据(二)离散化三、案例(坏账率分析案例)一、标准化数据(一)离差标准化数据离差表转化是对原始数据的一种线性变换,结果是将原始的数据映射到[0,1]区间之间, 转换公式为:import pandas as pdimport numpy as np# 剔除数据量级的影响,减小运算量 ---数据标准化""" 标准化 1、离差标准化原创 2020-06-22 22:16:24 · 1173 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(综合案例-医院数据统计)
目录一、项目介绍二、代码一、项目介绍近些年来,随着人民生活的提升,人民群众对于医疗条件的选择尤为重视,为此,各个诊所、医院应运而生来保障人民的身体健康。以下为某医院售药部分的售药记录情况,请根据该医院的售药记录数据,进行相关数据处理,并提出问题,挖掘其中有价值的信息,为该医院的下一步营销进行指导。先进行数据清洗:(1)把列索引变为容易理解的索引值(2)删掉有空值的数据(3)将’销售数量’,‘应收金额’,'实收金额’数据类型转换为 int(4)删除’销售数量’,‘应收金额’,'实收金额’中原创 2020-06-20 23:01:25 · 645 阅读 · 1 评论 -
数据大清洗_Pandas库进阶(数据重复值处理)(数据缺失值处理)
目录一、处理重复值1、记录重复2、特征重复一、处理重复值1、记录重复即一个或者多个特征某几个记录的值完全相同。方法:方法一: 利用列表(list)去重,自定义去重函数。方法二:是利用集合(set)的元素是唯一的特性去重,如 dish_set=set(dishes)。 比较上述两种方法可以发现,方法一代码冗长。方法二代码简单了许多,但会导致数据的排列发生改变。方法三:(推荐) pandas提供了一个名为drop_duplicates的去重方法。该方法只对DataFrame或者 Series 类原创 2020-06-20 21:15:34 · 2270 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(数据合并)
目录一、认识数据处理二、数据集成-concat(一)横向堆叠-concat(二)纵向堆叠-concat三、垂钓装备的合并案例四、主键合并-megre一、认识数据处理1、现实世界的数据是“肮脏的”——数据多了,什么问题都会出现(1)不完整的:缺少属性值,缺少感兴趣的属性,或仅包含聚集数据。 如:e.g., Occupation=“”; (2)含噪声的:包含错误或者“孤立点”。 e.g.,Salary=“-10”; (3)不一致的:在编码或者命名上存在差异。E.g.Age=“42” Birthday=原创 2020-06-18 22:28:26 · 788 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(TGI指数分析案例)(统计分析案例)
目录一、TGI指数分析案例二、连锁超市统计分析案例一、TGI指数分析案例什么是 TGI?TGI:即 Target Group Index(目标群体指数),可反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势。公式:TGI 指数= [目标群体中具有某一特征的群体所占比例/总体中具有相同特征的群体所占比例]*标准数 100。例如将某地区 15-24 岁的人作为目标群体,将去[电影网站 A]看电影作为相同特征;若该地区 15-24 岁的人中,有 8.9%原创 2020-06-18 20:57:23 · 1023 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(Pandas聚合查询)(Pandas透视表与交叉表)
没有废话,没有套话,人生苦短,只看干货原创 2020-06-16 22:54:09 · 1235 阅读 · 0 评论 -
数据大清洗_Pandas库进阶(Pandas时间数据)
没有废话,没有套话,只有干货原创 2020-06-16 22:14:06 · 1036 阅读 · 1 评论 -
数据大清洗_Pandas库进阶(dataframe增删改查)(Pandas统计分析)
目录一、dataframe增删改查1.查询操作2.增加操作3.修改操作4.删除操作二、Pandas统计分析三、案例最火菜品案例菜品缺失值处理案例一、dataframe增删改查1.查询操作上一篇文章含dataframe的直接索引,本文将介绍1个新的索引方式loc与iloc。loc方式:只能使用名称 ---同时索引iloc方式:只可以使用下标import pandas as pd# 直接索引方式:先列后行# 使用loc 、iloc进行同时对行列索引# 加载数据detail = pd.原创 2020-06-15 21:02:02 · 863 阅读 · 0 评论 -
数据大清洗_Pandas库
目录一、 对 Pandas 库认识1.1 利器之一:DataFrame创建 DataFrame 的三种形式1.2 利器之二:Series创建 Series。1.3 Series 和 DataFrame 的关系二、Pandas 读写文件文本文件读取文本文件保存Excel 文件读取Excel 文件保存三、DataFrame 的查询操作一、 对 Pandas 库认识pandas(panel data & data analysis),是基于 numpy(提供高性能的矩阵运算)专 门用于数据分析的工具,原创 2020-06-14 17:26:15 · 533 阅读 · 0 评论 -
数据大清洗_Matplotlib 绘制图形
目录一、Matplotlib 数据可视化基础1. Matplotlib 认识2.Matplotlib 绘图流程二、入门案例案例1:(气象图)案例2:(气象图-图形修饰)案例3:(散点图)案例4:(柱状图)案例5:(直方图)案例6:(饼图)案例7:(箱线图)案例8:(k线图)案例9:(雷达图)一、Matplotlib 数据可视化基础1. Matplotlib 认识Matplotlib 是一个 Python 的 2D 绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。他的作用就是将数原创 2020-06-14 16:53:44 · 922 阅读 · 0 评论 -
数据大清洗_Numpy进阶(数组排序)(数组去重与重复)(数组统计分析)
目录一、数组排序二、数组去重与重复三、数组统计与分析一、数组排序sort 函数是最常用的排序方法。 arr.sort()sort 函数也可以指定一个 axis 参数,使得 sort 函数可以沿着指定轴对数据集进行排序。axis=1 为沿横轴排序; axis=0 为沿纵轴排序。import numpy as np# 创建一个一维的数组# arr = np.array([5, 4, 6, 8, 1, 2, 9])# print('arr:\n', arr)# ## # # 对数组进行排序原创 2020-06-14 15:48:36 · 1542 阅读 · 0 评论 -
数据大清洗_Numpy进阶(数组运算)(读写文件)
目录一、数组的运算二、读写文件一、数组的运算# 数组的全通用函数 ---是一种能够对数组中所有元素进行操作的函数--以整个数组为输出# 要求:运算的数组 ---必须是同型import numpy as np# 创建两个数组# arr1 = np.array([[1, 2], [2, 1]]) # (2,2)# arr2 = np.arange(1, 5).reshape((2, 2)) # (2,2)# print('arr1:\n', arr1)# print('arr2:\n',原创 2020-06-14 15:26:08 · 363 阅读 · 0 评论 -
数据大清洗_矩阵的创建与运算
目录一、矩阵创建二、矩阵的运算一、矩阵创建使用 np.mat、np.asmatrix 创建矩阵使用 np.bmat 来组合矩阵 常用import numpy as np# 生成矩阵# 可以使用np.mat np.asmatrix来创建矩阵#np.mat = np.asmatrix 一样的#np.mat 将特殊字符串转化为矩阵# m1 = np.mat('1 2 3;4 5 6;7 8 9')# print(m1)# print(type(m1)) # <class 'num原创 2020-06-14 14:31:34 · 221 阅读 · 0 评论 -
数据大清洗_Numpy数组基础
目录一、numpy的认识二、数组创建三、数组属性四、数组索引(数组元素查询)五、数组形状变换1、基于 shape 属性变换2、基于reshape属性变换3、基于 np.flatten 与 np.ravel 函数变换六、数组合并与拆分1、数组合并2、数组拆分一、numpy的认识Numpy 是用于数据科学计算的基础,不但能够完成科学计算任务,还能被用作高效地多维数据容器。用于存储和处理大型矩阵。Python 提供了一个 array 模块,和 list 不同,它直接保存数值,但是由于 Python 的 a原创 2020-06-14 14:27:05 · 419 阅读 · 0 评论 -
数据大清洗_数学基础(矩阵,行列式)
做大数据开发,必须要掌握数学的一些基础知识:线性代数,概率论,微积分原创 2020-06-14 11:32:46 · 374 阅读 · 0 评论