2021-04-16

智慧海洋-task02

 在task01中我们对学习了常用的地理数据分析工具,而在task中主要学习对智慧海洋项目中数据进行探索性数据分析( Exploratory Data Analysis),其主要目的是:了解数据的基本情况——有无异常值、数据的分布如何,可以熟悉数据,为后面的特征工程做准备;了解特征之间的相关性,以及特征与预测之间的关系;为特征工程提供理论依据


数据集总体了解

  • 读取数据的维度
  • 查看数据的总体信息:data.info()
    columns/notnull/count/Dtype
  • 查看数据的基本统计信息:均值;方差;分位数:.describe()
  • 多进程与多线程运算:
    在示例程序中涉及到了采用multiprocessing来进行文件读取,实际上就是采用多进程来进行加速运算。在CPU上进行加速运算常见的有两种方式:多进程和多线程。(1)进程是操作系统分配资源的最小单元,而线程则是操作系统资源调度的最小单元。(2) 每个进程在执行过程中拥有独立的内存单元,而一个进程的多个线程在执行过程中共享内存。阮一峰在博客中指出:计算机的核心是CPU,它承担了所有的计算任务,就像一座工厂,假设工厂的电力有限,一次只能供给一个车间使用,则意义则就是单个CPU一次只能运行一个任务,而多核的CPU好比多个发电厂,使得多个工厂(多进程)称为可能。进程好比车厂的车间,其代表CPU中可以处理的单个任务,任一时刻CPU总是只运行一个进程。而一个车间中可以有很多工人来同时协作完成一个任务。
     Python中多进程运算:
# (1) 手动指定进程
from multiprocessing import Process
import time
start = time.time()
p1 = Process(target=function_name, args=(1,))
p2 = Process(target=function_name, args=(2,))
print('等待所有子进程完成。')
p1.start()
p2.start()
p1.join()
p2.join()
end = time.time()
# (2)利用multiprocess模块的Pool类创建多进程:
# 当进程数比较多的时候,如果手动指定进程数目会比较麻烦,此时直接通过进程池来进行处理,主要有如下几种方法:
(1) apply_async:
apply_async(function_name,functions_args)
各个进程采用异步的调用方式,即每个子进程只管运行自己的,而不用管其它进程是否已经完成
(2) map:
map(funtion,iterable)
该函数与内置的map函数用法基本一致,会使进程阻塞直到得到所有结果后返回,其中第2个参数是一个迭代器
(3) map_async:map一致,但是其多个进程是非阻塞的(不必管其它进程是都已经完成)
(4) close:关闭进程池
(5) terminate:结束工作进程,结束还没有完成的任务
(6) join:主进程阻塞等待子进程的退出, join方法要在close或terminate之后使用
  • pickle函数的使用:pickle是Python中独有的数据存储工具,其可以保存任意数据格式的数据,当我们需要高频保存/恢复数据的场景下运算更加高效,而file函数则只能读取和存储部分格式的数据,适用于小场景、数据格式不那么复杂的时候使用
# 加载数据
 with open(Path,"rb") as f:
 	total_data = pickle.load(f)
 # 保存数据
 with open(self.filename,"wb") as f:
            pickle.dump(data,f)

缺失值和唯一值的查看

  • pandas中查找Nan值:采用isna()或者.isnull()函数
    numpy中查找Nan值:采用isnan()函数
  • any()函数:any() 函数用于判断给定的可迭代参数 iterable 是否全部为 False,则返回 False,如果有一个为 True,则返回 True
  • 唯一值的判断:
    unique()返回对应特征可能的种类(Sex:[‘Man’,‘Woman’]])
    nunique()返回每种特征对应的数目(单个数字:2)

数据特性和特征分布

  • 对数据进行核密度估计,并绘制密度曲线:sns.kdeplot
import seaborn as sns 
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randn(100)
sns.kdeplot(x)
plt.show()

在这里插入图片描述

  • 绘制数据箱线图:boxplot
import seaborn as sns 
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randn(100)
plt.boxplot(x)
plt.show()

在这里插入图片描述
参考文献:
https://github.com/datawhalechina/team-learning-data-mining/tree/master/wisdomOcean

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值