智慧海洋-task02
在task01中我们对学习了常用的地理数据分析工具,而在task中主要学习对智慧海洋项目中数据进行探索性数据分析( Exploratory Data Analysis),其主要目的是:了解数据的基本情况——有无异常值、数据的分布如何,可以熟悉数据,为后面的特征工程做准备;了解特征之间的相关性,以及特征与预测之间的关系;为特征工程提供理论依据
数据集总体了解
- 读取数据的维度
- 查看数据的总体信息:data.info()
columns/notnull/count/Dtype - 查看数据的基本统计信息:均值;方差;分位数:.describe()
- 多进程与多线程运算:
在示例程序中涉及到了采用multiprocessing来进行文件读取,实际上就是采用多进程来进行加速运算。在CPU上进行加速运算常见的有两种方式:多进程和多线程。(1)进程是操作系统分配资源的最小单元,而线程则是操作系统资源调度的最小单元。(2) 每个进程在执行过程中拥有独立的内存单元,而一个进程的多个线程在执行过程中共享内存。阮一峰在博客中指出:计算机的核心是CPU,它承担了所有的计算任务,就像一座工厂,假设工厂的电力有限,一次只能供给一个车间使用,则意义则就是单个CPU一次只能运行一个任务,而多核的CPU好比多个发电厂,使得多个工厂(多进程)称为可能。进程好比车厂的车间,其代表CPU中可以处理的单个任务,任一时刻CPU总是只运行一个进程。而一个车间中可以有很多工人来同时协作完成一个任务。
Python中多进程运算:
# (1) 手动指定进程
from multiprocessing import Process
import time
start = time.time()
p1 = Process(target=function_name, args=(1,))
p2 = Process(target=function_name, args=(2,))
print('等待所有子进程完成。')
p1.start()
p2.start()
p1.join()
p2.join()
end = time.time()
# (2)利用multiprocess模块的Pool类创建多进程:
# 当进程数比较多的时候,如果手动指定进程数目会比较麻烦,此时直接通过进程池来进行处理,主要有如下几种方法:
(1) apply_async:
apply_async(function_name,functions_args)
各个进程采用异步的调用方式,即每个子进程只管运行自己的,而不用管其它进程是否已经完成
(2) map:
map(funtion,iterable)
该函数与内置的map函数用法基本一致,会使进程阻塞直到得到所有结果后返回,其中第2个参数是一个迭代器
(3) map_async:
与map一致,但是其多个进程是非阻塞的(不必管其它进程是都已经完成)
(4) close:关闭进程池
(5) terminate:结束工作进程,结束还没有完成的任务
(6) join:主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用
- pickle函数的使用:pickle是Python中独有的数据存储工具,其可以保存任意数据格式的数据,当我们需要高频保存/恢复数据的场景下运算更加高效,而file函数则只能读取和存储部分格式的数据,适用于小场景、数据格式不那么复杂的时候使用
# 加载数据
with open(Path,"rb") as f:
total_data = pickle.load(f)
# 保存数据
with open(self.filename,"wb") as f:
pickle.dump(data,f)
缺失值和唯一值的查看
- pandas中查找Nan值:采用isna()或者.isnull()函数
numpy中查找Nan值:采用isnan()函数 - any()函数:any() 函数用于判断给定的可迭代参数 iterable 是否全部为 False,则返回 False,如果有一个为 True,则返回 True
- 唯一值的判断:
unique()返回对应特征可能的种类(Sex:[‘Man’,‘Woman’]])
nunique()返回每种特征对应的数目(单个数字:2)
数据特性和特征分布
- 对数据进行核密度估计,并绘制密度曲线:sns.kdeplot
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randn(100)
sns.kdeplot(x)
plt.show()
- 绘制数据箱线图:boxplot
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randn(100)
plt.boxplot(x)
plt.show()
参考文献:
https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOcean