2 python常用标准库函数
2.1 数学运算 import math
2.2 处理文件 import os
2.3 生成随机数 import random
2.4 时间日期 import datetime
3 数据获取与表示
3.1 打开文件 open
help(open) #查看帮助
f1 = open('d://abc.txt') # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)
# a模式是追加,在文件尾部加内容
# r+ = r + w , w+ = w + r , a+ = a + r
为什么要用 with 语句
with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭/线程中锁的自动获取和释放等
因此无需再另外写 close()
语句
文件指针 seek
代码示例:批量读取文件(循环)
3.2 网络数据获取
读取文件常用 r.text
假设获取的是二进制文件,用r.content
有些网站会对http请求的Headers的User-Agent进行检测,需将headers信息传递给get函数的headers参数,例如豆瓣最近也有了此要求,例如知乎,直接访问会返回400,加上headers参数后可正确返回
headers = {'user-agent':'Mozilla/5.0'}
网页数据解析
3.3 序列
序列是Python中最基本的数据结构
6种序列, 字符串 ’ '、列表 [ ]、==元组( )==是最常用形式
索引:N个元素的序列,第一个元素索引是 0 ,最后一个元素索引是 N-1; 或者 最后一个元素索引 -1,第一个元素索引 -N
标准类型运算符
序列类型运算符
序列类型转换
序列类型常用内建函数
enumerate
类型说明符
字符串常用方法
转义字符
列表
元组
3.4 正则表达式
函数式编程
4 数据结构和Python扩展库
4.1 字典
字典的基本操作
字典的内建函数
4.2 集合
集合比较
集合关系运算
集合内建函数
SciPy
SciPy中的数据结构
Numpy
Matplotlib
pandas
ndarray
axis=0 即沿着第0轴进行操作,即对每一列进行操作
axis=1 即沿着第1轴进行操作,即对每一行进行操作
a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算
Series(变长字典)
DataFrame(数据分析)
词频
Numpy常见应用
5 Python数据统计与挖掘
5.1 便捷数据获取
sklearn
nltk
5.2 Python绘图基础
matplotlib
pandas
可以实现基于Series和DataFrame的某些功能,有时比matplotlib方便
.loc
基于标签绘图,可以直接将DataFrame的index作为X轴,各组Values作为Y轴
数据预处理工作通常要占到数据分析和挖掘过程的一半以上
5.3 数据预处理-数据清洗
缺失值的检测和处理
DataFrame
.dropna #缺失值删除
.fillna #缺失值填充 (mean均值填充,也可换成其他统计量)
异常值的检测和处理
.boxplot 箱型图
describe的图形表现
☆剔除3倍std
5.4 数据预处理-数据变换
数据规范化
sklean
连续属性离散化
特征二值化
5.5 数据预处理-数据规约(降维)
PCA是最常用的线性降维方法
sklearn