数据分析
文章平均质量分 70
好想告诉你2014
这个作者很懒,什么都没留下…
展开
-
python数据分析新手入门课程学习——(六)机器学习与建模(来源:慕课网)
机器学习根据是否有标注可以分为以下三类。监督学习(有标注的机器学习过程,标注相当于告诉模型在什么样的数据特征下应该输出什么样的结果,机器学习的任务就是提炼出输入与标注间的关系,并进行预测。)根据标注是离散值还是连续值。监督学习又可以分为“分类”(离散值)和“回归”。非监督学习(无标注)。半监督学习(部分有标注,部分无标注其中有标注的数据可以作用于无标注的数据,规范与引导聚类的方向;同时无标注...原创 2018-12-06 14:36:19 · 648 阅读 · 0 评论 -
python数据分析新手入门课程学习——(七)模型结果评估(来源:慕课网)
本章主要介绍以下四方面内容:一、分类模型评估1. 二分类把二分类的一个类叫做二分类中的正类(用1表示),另一个叫负类(用0表示)。一般来说,正类是我们更加关注的类,如HR表中是否离职就是我们关注的。所以如果员工近期离职,我们就可以把它叫正类;而其他未离职员工的样本叫做负类。如果拿测试集数据来说,我们得到的真实数据的标注:数据经过一个模型的计算,我们可以得到该模型的输...原创 2018-12-08 11:05:28 · 556 阅读 · 0 评论 -
python数据分析新手入门课程学习——(八)回顾与多角度看数据分析(来源:慕课网)
一、课程总结二、多角度数据分析除了以上介绍的思路以外,其实我们还可以从多个角度进行数据分析的解读。1.从目的角度来看描述性任务:直接获取能代表数据特征的指标,我们需要了解的就是这些指标。断因类任务: 常结合目的来看。如:分析你的男朋友为什么不理你或生气了,我们就需要获取他生气前后的行为特征和环境特征进行分析,得到和生气相关性最大的特征。预测类任务:根据已有的数据特征...原创 2018-12-08 10:30:36 · 270 阅读 · 0 评论 -
python数据分析新手入门课程学习——(四)探索性数据分析(复合分析)(来源:慕课网)
基于之前的理论学习来进行属性间的数据分析 1.交叉分析我们得到一张数据表,直观最有的两个分析切入点:1)从列的角度进行分析,分析每个属性的特点并进行归纳和总结;2)从行的角度进行分析(从案例的角度),尤其当数据有了标注了的时候,以标注为关注点,案例分析越多,也就越接近数据整体的质量。这两种分析忽略了数据属性间的关联性,有时并不能得到最为真实客观的结论。故用到交叉分析...原创 2018-12-02 11:28:16 · 585 阅读 · 1 评论 -
python数据分析新手入门课程学习——(四)探索性数据分析(多因子)(来源:慕课网)
一,理论铺垫1.假设检验与方差检验假设检验:根据一定的假设条件从样本推断总体,或者推断样本与样本之间关系的一种方法我们换个说法来解释假设检验,就是做出个假设,然后根据数据或已知的分布性质来。推断这个假设成立的概率有多大具体过程如下: 例子: 假设检验的方法有很多,方法这些差别的一般取决于检验统计量的选取上。如,μ检验法(检验一个样本,如上述例子),卡方检验(检验两个因素...原创 2018-11-25 20:58:39 · 505 阅读 · 0 评论 -
python数据分析新手入门课程学习——(二)探索分析与可视化(来源:慕课网)
一,单因子与对比分析可视化数据import pandas as pd df = pd.read_csv('./HR.csv') #查看前十条数据 df.head(10) 以下为显示的结果我们可以看出:第一个属性satisfaction_level(满意度)的取值应该是在0-1之间;last_evaluation(最近一次的评价)也是在0-1...原创 2018-11-11 11:01:07 · 872 阅读 · 0 评论 -
python数据分析新手入门课程学习——(一)数据获取(来源:慕课网)
一,流程 二,数据分析概述 含义与目标:使用统计分析方法,在数据中提取有用的信息并进行总结与概括的过程。三,使用工具蟒蛇语言以及numpy的,SciPy的,matplotlib,scikit学习,熊猫等工具包注意:学习过程中要勤于查阅 A、数据获取手段1.数据仓库(DW):将所有业务数据经汇总处理构成 ...原创 2018-11-10 22:45:34 · 911 阅读 · 2 评论 -
python数据分析新手入门课程学习——(三)使用matplotlib和seaborn画图(来源:慕课网)
一,导入数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltdf = pd.read_csv("./HR.csv")# 去除异常值df =df.dropna(how="any",axis=0)df = df[df["last_evaluation"]...原创 2018-11-04 11:26:43 · 1204 阅读 · 0 评论 -
python数据分析新手入门课程学习——(五)特征工程概述(数据预处理)(来源:慕课网)
机器学习:计算机根据经验(数据)自动化做出决策的过程最终机器学习达到一种状态,是当我们输入数据后,他能根据我们之前的训练或我们定义的目标输出我们想要的结果,这个过程其实就像一个函数一样。我们数据或者需求就是机器学习主体的输入,而这个主体的输出就是我们想要的结果。我们把学习机器主体叫做数据模型。数据模型是个函数,也是机器学习学习状态的体现。数据模型并不是由人搭建起来的系统,它来源于数据,由数据构...原创 2018-12-05 16:31:40 · 675 阅读 · 0 评论