![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析与挖掘实战
qq_35020943
这个作者很懒,什么都没留下…
展开
-
python数据分析简介
pyhton以最短的代码完成任务,因此运行效率并不高,又称“胶水语言”,因为它允许我们把耗时的核心部分用C/C++等更高效率的语言编写,然后由它来“黏合”,来解决了运行效率的问题。数据结构python有四个内建的数据结构——List(列表),Tuple(元组),Dictionary(字典),Set(集合),它们统称为“容器(container)”。列表和元组都是序列结构,列表用方括号标记[]...原创 2019-01-24 18:02:46 · 479 阅读 · 0 评论 -
数据探索
数据探索有两个角度:数据质量分析和数据特征分析数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据包括:缺失值,异常值,不一致的值,重复数据及含有特殊符号的数据。缺失值分析缺失值的处理有三个:删除存在缺失值的记录,对可能值进行插补,不处理。异常值分析(离群点分析)异常值分析是检验数据是否有录入错误以及含有不合常理的数据。(1)简单统计量分析:最大值,最小值(2)...原创 2019-01-24 20:13:55 · 244 阅读 · 0 评论 -
数据预处理
数据预处理的主要内容包括:数据清洗,数据集成,数据变换,数据规约。数据清洗缺失值处理分为3类:删除记录,数据插补,不处理常用的插补方法有以下:插补方法方法描述均值/中位数/众数根据属性值的类型,用该属性取值的平均数/中位数/众数进行插补使用固定值将缺失的属性用一个常量替换最近临插补在记录中找到与缺失样本最接近的样本的该属性值插补回归方法对带有...原创 2019-01-26 23:29:29 · 303 阅读 · 0 评论 -
挖掘建模--聚类分析
与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组为被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组间距离最大化。常用聚类方法类别包括的主要算法划分方法K-Means算法,K-MEDOIDS算法,CLARANS算法...原创 2019-02-02 12:08:04 · 548 阅读 · 0 评论 -
挖掘建模--分类与预测--回归分析
回归分析回归分析是通过建立模型来研究变量之间相互关系的密切程度,结构状态及进行模型预测的一种有效工具。常用的回归模型:回归模型名称适用条件算法描述线性回归因变量与自变量是线性关系对一个或多个自变量与因变量之间的线性关系进行建模,用最小二乘法求解模型系数非线性回归因变量与自变量之间不都是线性关系能转化为线性关系用线性回归的思想求解,不能的时候,用非线性最小...原创 2019-01-28 13:34:42 · 500 阅读 · 0 评论 -
挖掘建模--关联规则
关联规则分析也称购物篮分析。常用关联规则分析算法名称算法描述Apriori最经典的挖掘频繁项集的算法,其核心思想是通过连接产生候选项及其支持度然后通过剪枝生成频繁项集FP-Tree针对Apriori算法固有的多次扫描事物数据集的缺陷,提出的不产生候选频繁项集的方法,也是寻找频繁项集的算法Eclat算法一种深度优先算法,采用垂直数据表示形式,在概念格理论的举...原创 2019-02-02 20:25:33 · 294 阅读 · 0 评论 -
挖掘建模--分类与预测--决策树
决策树是一个树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分,对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。常用的决策树算法决策树算法算法描述ID3算法其核心是在决策树的各级节点上,使用信息增...原创 2019-01-29 17:40:50 · 435 阅读 · 0 评论 -
挖掘与建模--分类与预测--人工神经网络
人工神经网络(Artificial Neural Networks,ANN)是模拟生物神经网络进行信息处理的一种数学模型。人工神经元是人工神经网络操作的基本信息处理单位。一个人工神经元对输入信号X=[x1,x2,…xm]的输出为y为y=f(u+b),其中u为wi*xi所有的和。激活函数主要有以下几种人工神经网络的学习也称为训练,指的是神经网络在受到外部环境的刺激下调整神经网络的参数,使...原创 2019-01-30 15:24:33 · 2313 阅读 · 1 评论 -
挖掘建模--分类与预测
1.分类与预测1.1实现过程分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类属于有监督学习。分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则,第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的则使用该模型对未知类标号的待测样本集进行预测。1.2常用的分类与预测算法...原创 2019-01-30 15:26:15 · 482 阅读 · 0 评论