【学习笔记】南京大学-用Python玩转数据

Kele-17369

于 2021-03-04 16:58:53 发布

阅读量1.3k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/qq_36226586/article/details/114372706

版权

Python 专栏收录该内容

16 篇文章

订阅专栏

本文全面介绍了Python编程的基础知识，包括常用标准库函数的应用、数据获取与表示的方法、数据结构及扩展库的使用，以及数据统计与挖掘的技术。特别强调了文件处理、网络数据获取和数据预处理的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

2 python常用标准库函数

2.1 数学运算 import math

在这里插入图片描述

2.2 处理文件 import os

在这里插入图片描述

2.3 生成随机数 import random

2.4 时间日期 import datetime

在这里插入图片描述

3 数据获取与表示

3.1 打开文件 open

help(open) #查看帮助
在这里插入图片描述

f1 = open('d://abc.txt')  # 默认'r'读文件,文件必须存在
f2 = open(r'd:/abc.txt','w') # 'w'表示写文件(清空原内容)
f3 = open('d:/abc.txt','w',0)

# a模式是追加，在文件尾部加内容
#  r+ = r + w , w+ = w + r , a+ = a + r

在这里插入图片描述

为什么要用 with 语句

with 语句适用于对资源进行访问的场合，确保不管使用过程中是否发生异常都会执行必要的“清理”操作，释放资源，比如文件使用后自动关闭／线程中锁的自动获取和释放等
因此无需再另外写 close()语句

文件指针 seek

在这里插入图片描述

代码示例：批量读取文件（循环）

在这里插入图片描述

3.2 网络数据获取

在这里插入图片描述
读取文件常用 r.text
假设获取的是二进制文件，用r.content

有些网站会对http请求的Headers的User-Agent进行检测，需将headers信息传递给get函数的headers参数，例如豆瓣最近也有了此要求，例如知乎，直接访问会返回400，加上headers参数后可正确返回
headers = {'user-agent':'Mozilla/5.0'｝

网页数据解析

在这里插入图片描述

3.3 序列

序列是Python中最基本的数据结构

6种序列，字符串 ’ '、列表 [ ]、==元组( )==是最常用形式
在这里插入图片描述

索引：N个元素的序列，第一个元素索引是 0 ，最后一个元素索引是 N-1; 或者最后一个元素索引 -1，第一个元素索引 -N

在这里插入图片描述

标准类型运算符

在这里插入图片描述

序列类型运算符

在这里插入图片描述

序列类型转换

在这里插入图片描述

序列类型常用内建函数

在这里插入图片描述
enumerate

类型说明符

在这里插入图片描述

字符串常用方法

在这里插入图片描述

转义字符

在这里插入图片描述

列表

在这里插入图片描述

元组

在这里插入图片描述

3.4 正则表达式

在这里插入图片描述

函数式编程

在这里插入图片描述

4 数据结构和Python扩展库

4.1 字典

在这里插入图片描述

字典的基本操作

在这里插入图片描述

字典的内建函数

在这里插入图片描述

4.2 集合

在这里插入图片描述

集合比较

在这里插入图片描述

集合关系运算

在这里插入图片描述

集合内建函数

在这里插入图片描述

SciPy

https://scipy.org/
在这里插入图片描述

SciPy中的数据结构

在这里插入图片描述

Numpy

在这里插入图片描述

Matplotlib

在这里插入图片描述

pandas

在这里插入图片描述

ndarray

在这里插入图片描述

axis=0 即沿着第0轴进行操作，即对每一列进行操作
axis=1 即沿着第1轴进行操作，即对每一行进行操作

在这里插入图片描述

a.reshape(2, -1) #2行 n列
a.reshape(-1, 1) #n行 1列 常用于机器学习向量计算

在这里插入图片描述

Series(变长字典)

在这里插入图片描述

DataFrame（数据分析）

在这里插入图片描述

词频

Numpy常见应用

5 Python数据统计与挖掘

5.1 便捷数据获取

sklearn

nltk

5.2 Python绘图基础

matplotlib

在这里插入图片描述

pandas

可以实现基于Series和DataFrame的某些功能，有时比matplotlib方便

.loc基于标签绘图，可以直接将DataFrame的index作为X轴，各组Values作为Y轴
在这里插入图片描述

数据预处理工作通常要占到数据分析和挖掘过程的一半以上

5.3 数据预处理-数据清洗

在这里插入图片描述

缺失值的检测和处理

在这里插入图片描述

DataFrame

.dropna #缺失值删除
.fillna #缺失值填充（mean均值填充，也可换成其他统计量）

异常值的检测和处理

在这里插入图片描述
.boxplot 箱型图 describe的图形表现

☆剔除3倍std

在这里插入图片描述

5.4 数据预处理-数据变换

在这里插入图片描述

数据规范化

在这里插入图片描述

sklean

在这里插入图片描述

连续属性离散化

在这里插入图片描述

特征二值化

5.5 数据预处理-数据规约（降维）

在这里插入图片描述
PCA是最常用的线性降维方法

sklearn

在这里插入图片描述