一、Python环境配置
因为自己的电脑已经有Python的环境了,所以无法一步一步详细的介绍Python的安装步骤,简单介绍下需要安装的东西:
⒈ Python安装
既然叫做用Python进行数据分析,那么安装Python是必不可少的,要记住,Python是你向计算机发号施令的语言(像英语一样,是你和计算机交流的一种语言,其他编程语言都是这个意思)。
根据自己电脑的操作系统,选择对应的版本安装即可。
⒉ 集成开发环境(IDE,Integrated Development Environment)
注意IDE是建立在安装了编程语言之上的一个工具。
IDE是一种个编程软件,是集成了程序员语言开发中会需要的一些基本工具、基本环境和其他辅助功能的应用软件。IDE一般包含三个主要组件:源代码编辑器(Editor)、编译器、解释器(Compiler、Interpreter)和调试器(Debugger)。
目前IDE很多,选择适合自己的就好。
【软件开发人员版】
总之就是感觉功能很丰富。
【数据分析人员版】
为了方便,可以使用Jupyter Notebook,一种类似于记事本的IDE。安装方法:https://jupyter.org/install 。
Jupyter有个好处是,你可以把它安装在服务器上,走到哪里都可以通过浏览器打开。
二、Python语言的基础
像学英语一样,每个语言有自己的词汇、语法,Python也不例外。这块基础知识可以参照廖雪峰老师的教程,从一个程序员的角度来看,还是很不错的。Python教程
三、Pandas学习
⒈ Pandas 安装
Pandas官网,具体的安装方法可以参考下,实际需要参照你的IDE环境来选择安装方式。
⒉ Pandas 学习
Pandas常用的数据结构有两种:Series和DataFrame。这些数据结构都是构建早Numpy数组之上的。
真的感觉很详细。
3.实践
# coding = utf-8
import numpy as np
import stats as sts
#随机生成10个0-100的整数
data = np.random.randint(100, size=10)
print("原始数据:",data)
#排序
print("排序后数据:",np.sort(data, axis=0))
#众数
counts = np.bincount(data)
modenum = np.argmax(counts)
print("众数:",modenum)
#中位数
print("中位数:",np.median(data))
#算术平均数
print("算术平均数:",np.mean(data))
#25%分位数和75%分位数
print("25%分位数和75%分位数:",np.percentile(data, 25), np.percentile(data,75))
#极差
print("极差:",np.ptp(data))
#加权平均数
weights = np.random.randint(10, size=10)
print("权重:",weights)
print("加权平均数:",np.average(data, weights=weights))
#几何平均数
production = 1
for i in data:
production *= i
print("几何平均数:",production**(1/10))
#方差
print("方差:",np.var(data))
#标准差
print("标准差:",np.std(data))
#平均差
avgd = 0
for i in data:
avgd += abs(i - np.mean(data))
print("平均差:",avgd/10)
#四分位差
print("四分位差:",np.percentile(data, 75) - np.percentile(data, 25))
#异众比率
count = 0
for i in data:
if i != modenum:
count += 1
print("异众比率:",count/10)
#离散系数
print("离散系数:",np.std(data)/np.mean(data))
#偏态系数
print("偏态系数:",sts.skewness(data))
#峰态系数
print("峰态系数:",sts.kurtosis(data))