数据分析基本概念
- 明确思路→数据收集《分布式爬虫实战》→数据处理→数据分析→数据展现
- 常用的收集途径: 公开信息,外部数据库,自有数据库,调查问卷,客户数据
- 数据清洗: 可读性,完整性,唯一性,权威性及合法性
- 常见的数据类型
1,类别型数据 (1)取值种类 (2)每类取值的分布
2,数值型变量 (1)极值和分位点 (2)均值和标准差 (3)变量间相关性
3,通用数据描述 (1)缺失值 (2)重复性
Python3新特性
字符串格式化输出
新增format()方式
- 基本语法是通过 {} 和 : 来代替以前的 %
dict类型变化
删除之前的iterkeys(),itervalues(),iteritems() 改为keys(),values(),items().
NumPy(Numerical Python)
NumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:
1,高性能科学计算和数据分析的基础包,提供多维数组对象
2,ndarray,多维数组(矩阵),具有矢量计算能力,快速节省空间
3,矩阵运算,无需循环,可完成类似matlab中的矢量计算
4,线性代数,随机数生成
5,广播功能函数
6,整合 C/C++/Fortran 代码的工具
- import numpy as np
SciPy
1,在NnmPy库的基础上增加了众多的数学,科学及工程常用的库函数
2,线性代数,常微分方程求解,信号处理