Python编程基础、numpy包、pandas包的用法(详细)
一、python编程入门
1.python的工作目录
在使用Python时,一个重要设置是定义工作目录,即设置当前运行路径。
例如:
#获取当前目录
%pwd
#改变工作路径
%cd"D:python"
2.python分析包
python具有丰富的数据分析模块,大多数做数据分析的人使用python是因为其强大的数据分析功能。所有的python函数和数据集是保存在里面的。只有当一个包被安装并被载入(import)时,他的内容才可以被访问。
常用的数据分析包:
包名 说明 主要功能
math 基础数学包 提供函数,完成各种数学运算
random 随机数生成包 Python中的random模块用于生成各种随机数
numpy 数值计算包 numpy (numeric python)是Python的一种开源的数值计算扩展,一个用Python实现的数值计算工具包。它提供许多高级的数值编程工具,如矩阵数据类型、矢量处理,以及精密的运算包。专为进行严格的数值处理而产生
scipy 数值分析包 提供很多科学计算工具包和算法,方便是易于使用,专为科学和工程设计的数值分析工具包。它包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等,包含常用的统计估计和检验方法
pandas 数据操作包 提供类似于R语言的Dataframe操作,非常方便。 pandas是面板数据(panel data)的简写。它是Python最强大的数据分析和探索工具,因金融数据分析工具而开发,支持类似SQL的数据增、删、改、查,支持时间序列分析,灵活处理缺失数据
statsmodels 统计模型包 statsmodels可以补充scipy.stats,是一个包含统计模型、统计测式和统计数据挖掘的Python模块。对每个模型都会生成一个对应的统计结果,对时间序列有完美的支持
matplotlib 基本绘图包 该包主要用于绘图和绘表,是一个强大的数据可视化工具,语法类似于Matlab,是一个Python的图形框架,类似于Matlab和R语言。它是Python最著名的绘图库,提供了一整套和Matlab相似的命令API,十分适合交互式制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中
sklearn 机器学习包 sklearn是基于Python的机器学习工具模块,里面主要包含6大模块:分类、回归、聚类、降维、模型选择、预处理,如,使用sklearn.decomposition可进行主成分分解
beautifulSoup 网络爬虫包 beautifulsoup是Python的一个包,最主要的功能是从网页抓取数据。BeautifulSsoup提供一些简单的、Python式的函数,用来处理导航、搜索、修改分析树等功能。通过解析文档为用户提供需要抓取的数据,通过它可以很方便地提取出HTML或XML标签中的内容
network 复杂网络包 networkx一款Python的软件包,用于创造、操作复杂网络,以及学习复杂网络的结构、动力学及其功能。通过它可以用标准或者不标准的数据格式加载或者存储网络,它可以产生许多种类的随机网络或经典网络,也可以分析网络结构、建立网络模型、设计新的网络算法、绘制网络等
注意:安装程序包和载入程序包是两个概念,安装程序包是指将需要的程序包安装到电脑中,载入包是指将程序包调入Python环境中。程序包的安装(通常在命令行状态:)> > > pip install pandas
python调用包的命令是import ,如需要调用上述包,可用
- import math
- import random
- import numpy
- import scipy
- import pandas
- import matplotlib
这些包中的函数,可直接使用包名加“.”。如要用matplotlib绘plot图,可用matplotlib.plot(…)。
如要简化这些包的写法,可用as命令赋予别名,如:
- import numpy as np
- import pandas as pd
- import matplotlib as plt
这样matplotlib.plot(…)可以简化为plt.plot(…)。
如要调用python包中某个具体函数或方法,可使用 from … import 例如:
调用math中的开放、对数、和pi函数,则:
from math import sqrt,log,pi
这样,可以直接在程序中使用,如sqrt(2),等价于math.sqrt(2).
3.python中的数据管理
目前,python中最大的问题就是数据管理,因为python没有好的数据管理器,其自带的数据管理器很不方便,所以,要用好Python软件,就得将python与Excel等电子表格充分结合,发挥两者的优点。
二、python数据类型
1.python对象
python创建和控制的实体称为“对象”,它们可以是变量、数组、字符串、函数或结构。
- 查看数据对象
- 生成数据对象
- 删除数据对象
**python对象名称必须是以一个英文字母打头,并由一串大小写字母、数字或下划线组成。
注意:python区分大小写,比如:Orange与orange数据对象是不同的。不要用python的内置函数名作为对象的名称。**
2.数据的基本类型
python的基本数据类型包括数值型、逻辑型、字符型、复数型等,也可能是缺失值。
2.1数值型
数值型数据的