学习笔记(杂记)——数据处理

一、安装anaconda
之前使用pycharm编辑器,在安装数据处理所需的库时会出现一些问题,后面就了解到anaconda这个Python的集成平台,里面包含了很多Python工具包,而且界面也很友好。直接在官网下载安装即可,anaconda下最常使用的是Spyder,编写程序的时候,一边在左边写,一边在右边实时测试。
二、库
(1)Numpy
NumPy库使用Python进行科学计算,尤其是数据分析时,所用到的一个基础库。它是大量Python数学和科学计算包的基础,比如我们后面会讲到的pandas库就用到了NumPy。pandas库专门用于数据分析,充分借鉴了Python标准库NumPy的相关概念。而Python标准库所提供的内置工具对数据分析方面的大多数计算来说都过于简单而不够用。为了更好地理解和使用Python所有的科学计算包,尤其是Pands,需要先掌握Numpy库的用法,这样才能把pandas的用处发挥到极致。
整个NumPy库的基础是ndarray(即N维数组)对象。它是一种由同质元素组成的多维数组 ,元素数量是事先指定好的。同质指的是几乎所有元素的类型和大小都相同。事实上,数据类型由另外一个叫做dtype的NumPy对象来指定;每个ndarray只有一种dtype类型。
数组的维数和元素数量由数组的型来确定,数组的型由N个正整数组成的元组来指定,元组的每个元素对应每一维的大小。数组的维统称为轴,轴的数量被称为秩。
Numpy数组的另一个特点是大小固定,也就是说,创建数组时一旦指定好大小,就不会再发生改变。这与Python的列表有所不同,列表的大小是可以改变的。
定义ndarray最简单的方式是使用array( )函数,以python列表作为参数,列表的元素即是ndarray的元素。
(2)Pandas
Pandas是python+data+analysis的组合缩写,是python中基于numpy和matplotlib的第三方数据分析库,与后两者共同构成了python数据分析的基础工具包。
在这里插入图片描述

pandas主要面向数据处理与分析,主要具有以下功能特色:
按索引匹配的广播机制,这里的广播机制与numpy广播机制还有很大不同;
便捷的数据读写操作,相比于numpy仅支持数字索引,pandas的两种数据结构均支持标签索引,包括bool索引也是支持的;
类比SQL的join和groupby功能,pandas可以很容易实现SQL这两个核心功能,实际上,SQL的绝大部分DQL和DML操作在pandas中都可以实现;
类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas中也可轻松实现;
自带正则表达式的字符串向量化操作,对pandas中的一列字符串进行通函数操作,而且自带正则表达式的大部分接口;
丰富的时间序列向量化处理接口;
常用的数据分析与统计功能,包括基本统计量、分组统计分析等;
集成matplotlib的常用可视化接口,无论是series还是dataframe,均支持面向对象的绘图接口。
三、数据预处理
(1)数据清洗
缺失值处理:删、插(固定值、均值插补;同类均值插补、建模预测、高维映射、多重插补);
异常值处理:删掉、当做缺失值处理
(2)数据集成
将多个数据源合并:实体识别(同名异义、异名同义、单位不统一)、冗余属性识别(同一属性多次出现、同一属性命名不一致)
(3)数据变换
简单函数变换:对原始数据进行某些数学函数变换,将不具备正太分布的数据变成服从正太分布;
数据规范化(归一化)处理:最大最小标准化、z标准化等;
连续属性离散化:等宽法、等频法、基于聚类分析方法(合并到一个簇的连续属性值做同一个标记);
属性构造:为了提取更有用的信息
(4)数据规约
降低无效、错误数据对建模的影响,提高建模的准确性;少量且具代表性的数据将大幅缩减数据挖掘所用时间;降低储存成本。数据规约一般要从两个方向进行,一是属性规约,其次是数值规约。
属性规约:删除与目标指标不相关属性、合并两两强相关属性、决策树归纳筛选(决策树没有利用的属性均可认为是无关属性)、逐步向前选择、逐步向和删除、主成分分析、其他降维方法;
数值规约:选择替代的、较小的数据来减少数据量,包括有参数、无参数方法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值