数据分析
spring小郭
这个作者很懒,什么都没留下…
展开
-
数据建模及模型评估
Task05:数据建模及模型评估混淆矩阵混淆矩阵就是分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来。这个表就是混淆矩阵。混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。真实值是positive,模型认为是positive的数量(True Positive=T原创 2020-08-27 23:10:00 · 957 阅读 · 0 评论 -
Python数据可视化matplotib 库
Task04:数据可视化7.1 matplotib 库matplotlib库是专门用于开发2D图表(包括3D图表)的,近年来被广泛应用于科技圈( http://matplolib.org )。在促使它成为使用最多的数据图形化表示工具的众多优点中,以下几点最为突出:使用起来极其简单以渐进、交互式方式实现数据可视化表达式和文本使用LaTeX排版对图像元素控制力更强可输出PNG、PDF、SVG和EPS等多种格式matplotlib的设计初衷是在图形视图和句法形式方面尽可能重建跟Matlab类似的原创 2020-08-25 22:43:55 · 456 阅读 · 0 评论 -
数据分析之数据重构
Task03:数据重构数据从一种几何形态到另一种几何形态,数据从一种格式到另一种格式的转换,包括结构转换、格式转换、类型替换等(数据拼接、数据裁剪、数据压缩等),以实现空间数据在结构、格式、类型上的统一,多源和异构数据的联接与融合。重构前存在的问题一、使用难:主题表是由领域应用驱动设计的,定制性比较强,没有很好地考虑扩展和通用性,需求变化就很难重用。基于这些表进行再次汇聚、关联都比较困难。二、质量差:相同指标在不同领域中的算法不统一,常存在数据一致性问题,数据质量差。三、性能低: 所有的主题表都原创 2020-08-23 21:19:26 · 796 阅读 · 0 评论 -
02:数据清洗及特征处理
Task02:数据清洗及特征处理导入numpy、pandas包和数据import numpy as npimport pandas as pdprint(pd.__version__) # 1.0.3载入数据df=pd.read_csv('train.csv')df.head()1、缺失值观察与处理缺失值的处理方法函数名描述dropna根据每个标签的值是否缺失数据来筛选轴标签,并根据允许丢失的数据来确定阈值fillna用某些值填充缺失的数据或使用插值的方法原创 2020-08-21 20:29:38 · 154 阅读 · 0 评论 -
基于python数据分析
Task01:数据探索与分析1、数据质量分析数据质量分析是数据挖掘中数据准备过程的重要–环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容。口、缺失值。异常值。不一致的值。重复数据及含有特殊符号(如#、¥、*)的数据。2、缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段原创 2020-08-20 21:33:38 · 788 阅读 · 0 评论