【学习笔记】南京大学-用Python玩转数据

在这里插入图片描述

2 python常用标准库函数

2.1 数学运算 import math

在这里插入图片描述

2.2 处理文件 import os

在这里插入图片描述

2.3 生成随机数 import random

2.4 时间日期 import datetime

在这里插入图片描述

3 数据获取与表示

3.1 打开文件 open

help(open) #查看帮助
在这里插入图片描述
在这里插入图片描述

f1 = open('d://abc.txt')  # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)

# a模式是追加,在文件尾部加内容
#  r+ = r + w , w+ = w + r , a+ = a + r

在这里插入图片描述

为什么要用 with 语句

with 语句适用于对资源进行访问的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭/线程中锁的自动获取和释放等
因此无需再另外写 close()语句

文件指针 seek

在这里插入图片描述

代码示例:批量读取文件(循环)

在这里插入图片描述
在这里插入图片描述

3.2 网络数据获取

在这里插入图片描述
读取文件常用 r.text
假设获取的是二进制文件,用r.content

有些网站会对http请求的Headers的User-Agent进行检测,需将headers信息传递给get函数的headers参数,例如豆瓣最近也有了此要求,例如知乎,直接访问会返回400,加上headers参数后可正确返回
headers = {'user-agent':'Mozilla/5.0'}

网页数据解析

在这里插入图片描述

3.3 序列

序列是Python中最基本的数据结构

6种序列, 字符串 ’ '列表 [ ]、==元组( )==是最常用形式
在这里插入图片描述

索引:N个元素的序列,第一个元素索引是 0 ,最后一个元素索引是 N-1; 或者 最后一个元素索引 -1,第一个元素索引 -N

在这里插入图片描述

标准类型运算符

在这里插入图片描述

序列类型运算符

在这里插入图片描述

序列类型转换

在这里插入图片描述

序列类型常用内建函数

在这里插入图片描述
enumerate

类型说明符

在这里插入图片描述
在这里插入图片描述

字符串常用方法

在这里插入图片描述
在这里插入图片描述

转义字符

在这里插入图片描述

列表

在这里插入图片描述

元组

在这里插入图片描述

3.4 正则表达式

在这里插入图片描述

函数式编程

在这里插入图片描述

4 数据结构和Python扩展库

4.1 字典

在这里插入图片描述
在这里插入图片描述

字典的基本操作

在这里插入图片描述

字典的内建函数

在这里插入图片描述

4.2 集合

在这里插入图片描述

集合比较

在这里插入图片描述

集合关系运算

在这里插入图片描述

在这里插入图片描述

集合内建函数

在这里插入图片描述

SciPy

https://scipy.org/
在这里插入图片描述
在这里插入图片描述

SciPy中的数据结构

在这里插入图片描述

Numpy

在这里插入图片描述

Matplotlib

在这里插入图片描述

pandas

在这里插入图片描述
在这里插入图片描述

ndarray

在这里插入图片描述
在这里插入图片描述

axis=0 即沿着第0轴进行操作,即对每一列进行操作
axis=1 即沿着第1轴进行操作,即对每一行进行操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算

在这里插入图片描述
在这里插入图片描述

Series(变长字典)

在这里插入图片描述

DataFrame(数据分析)

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
词频
在这里插入图片描述

Numpy常见应用

5 Python数据统计与挖掘

5.1 便捷数据获取

sklearn

nltk

5.2 Python绘图基础

matplotlib

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

pandas

可以实现基于Series和DataFrame的某些功能,有时比matplotlib方便

.loc基于标签绘图,可以直接将DataFrame的index作为X轴,各组Values作为Y轴
在这里插入图片描述
在这里插入图片描述

数据预处理工作通常要占到数据分析和挖掘过程的一半以上

5.3 数据预处理-数据清洗

在这里插入图片描述

缺失值的检测和处理

在这里插入图片描述

DataFrame

.dropna #缺失值删除
.fillna #缺失值填充 (mean均值填充,也可换成其他统计量)

异常值的检测和处理

在这里插入图片描述
.boxplot 箱型图 describe的图形表现

☆剔除3倍std

在这里插入图片描述

5.4 数据预处理-数据变换

在这里插入图片描述

数据规范化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

sklean

在这里插入图片描述
在这里插入图片描述

连续属性离散化

在这里插入图片描述

特征二值化

5.5 数据预处理-数据规约(降维)

在这里插入图片描述
PCA是最常用的线性降维方法

sklearn

在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值