python数据挖掘
文章平均质量分 82
划过的梦神
Action speak louder than words.
展开
-
挖掘建模
一、分类与预测分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应因变量的值。 1.主要分类与预测算法 回归分析 决策树 人工神经网络 贝叶斯网络 支持向量机 2.回归分析 回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态以及进行模型预测的一种有效工具。 1. 线性回归:因变量和自变量是线性关系原创 2017-04-07 15:24:53 · 2854 阅读 · 1 评论 -
数据预处理
数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。一、数据清洗1.缺失值处理 处理缺失值分为三类:删除记录、数据补差和不处理。 数据补插方法: 1. 补插均值/中位数/众数 2. 使用固定值 3. 最近邻补插 4. 回归方法 5. 插值法 插值法介绍: (1)拉格朗日插值法 python 的Scipy库提供 代码:#coding=utf-8import原创 2017-04-06 11:37:33 · 19356 阅读 · 4 评论 -
python数据探索
第三章 数据探索3.1 数据质量分析 脏数据包括:缺失值;异常值;不一致的值;重复数据及含有特殊符号的数据; 1.缺失值处理 统计缺失率,缺失数 2.异常值处理 (1)简单统计量分析 (2)3Q原则 正态分布情况下,小概率事件为异常值 不服从正太分布的,可以用原离平均值多少倍标准差来分析 (3)箱线图分析 使用describe()描述import pandas as pdcate原创 2017-04-05 15:22:47 · 3236 阅读 · 0 评论 -
python数据分析工具
一、各种库的简介1.Numpy:数组支持 http://www.numpy.org/ http://reverland.org/python/2012/08/22/numpy/ 2.Scipy:矩阵支持 http://www.scipy.org/ http://reverland.org/python/2012/08/24/scipy/ 3.Matplotlib:可视化,作图 http原创 2017-03-28 16:01:52 · 1888 阅读 · 0 评论