探索数据挖掘 与 分析
文章平均质量分 65
python 数据挖掘与分析
ouprince
这个作者很懒,什么都没留下…
展开
-
贝叶斯分类算法 -- 概率推导
贝叶斯分类算法是基于一种古典概率统计学的一种非常简单的分类方法。废话不多说,尽快进入推导过程,因为很简单。假设 x1,x2... x3 是判断因素,y 是类别结果。那么我们做如下假设:1. x1,x2 ... x3 是离散事件,即可以统计出 p(x1),p(x2).... p(x3) ,否则贝叶斯算法失效。2.x1,x2, ... x3 互相独立,即 p(x1|x2) = p(x1)...转载 2018-09-13 14:12:28 · 2034 阅读 · 0 评论 -
python 数据挖掘(12)-- 关联规则 Apriori
关联规则指的是,当事件 A 发生时,事件 B 发生有多大的置信度。也就是 事件 B 对 事件 A 的相关性。当然这是最简单的情况,也可以多个事件关联,比如事件 A,B 发生时,事件 C 发生的概率。Apriori 算法是一个比较传统的关联算法,主要就是基于统计学的一种算法。定义两个概念:项集:即事件的集合支持度:就是 Support(A=>B) = P(A∩B) 也就是 A 和 ...转载 2018-08-29 17:31:45 · 4889 阅读 · 1 评论 -
python 数据挖掘(11)-- 聚类分析
这里介绍 Kmeans 聚类算法,K-Means 聚类算法在之前就介绍过,只不过哪个时候用的是 mahout算法的原理和过程不再介绍了,在 NLP 专栏可以找到,不再累述,主要是这里增加了一个聚类结果可视化工具 TSNE,它的定位是高维数据的可视化,TSNE 提供了一种有效的数据降维方式,让我们可以在 2 维或者 3 维的空间对高维数据展示聚类结果。数据consumption_data.x...转载 2018-08-27 18:09:14 · 1263 阅读 · 0 评论 -
python 数据挖掘(10) -- 人工神经网络 ANN
关于神经网络,在 TensorFlow 专栏和 NLP 专栏都已经用了太多,所以不再介绍。只不过python 用的是 Keras ,这其实相比TensorFlow更简单多了(keras 其实是 TensorFlow 的封装,源码其实就是调用 TensorFlow,所以用起来比TensorFlow方便很多)。针对上一节的决策树分类,这里改用人工神经网络代码如下:#-*- coding:utf-...转载 2018-08-10 18:02:51 · 1071 阅读 · 0 评论 -
python 数据挖掘(9)-- 决策树
决策树用在分类的问题上,说白了就是根据属性判断某一类别的问题。决策树的核心是什么?打个比方,如果今天下雨,我就去超市,如果超市没有关门,我就买苹果。假设把结果分成两类,买苹果和不买苹果。则分为下:这就是决策树,但是问题来了,这是我买苹果的决策树。但是如果不知道我的规则,只给一堆用户数据,比如告诉你天气和超市是否关门(忘记关门肯定买不了这个常识吧,也可以换成其他的因素)然后给出一大堆买苹果和...转载 2018-08-10 17:17:39 · 692 阅读 · 0 评论 -
python 数据挖掘(8)-- 逻辑回归
逻辑回归我觉得是一种非常简单的模型,简单到线性级别。因此个人觉得这种模型可能并没有什么用。但作为挖掘的一种模型,还是值得学习一下:逻辑回归就是当我们预测某一个东西只有 1-0 两种情况时,比如是或不是,属于或不属于。注意这不是二分类,二分类还有种情况是都不是这两类。比如不一定人只有好人和坏人。这里指的是类似硬币只有正面和反面,天气下雨或不下(不是下雨或下雪)这种情况。假设天气下雨的概率是 ...转载 2018-08-10 15:03:10 · 1002 阅读 · 1 评论 -
python 数据挖掘(7)-- 主从分析 PCA
主从分析的主要目的是降维,从而提高数据挖掘的效率,降低计算成本。主从分析计算步骤如下:(1)设置原始属性 X1,X2,...Xp 的 n 次观测矩阵为:(2)将数据矩阵按列进行中心标准化。(3)求标准化后的相关系数矩阵 R,我们知道这是一个实对称矩阵(4)求R 的特征根 (5)确定主成分个数 m ,一般取 0.8 (6)计算 m 个相应的特...转载 2018-08-09 18:28:20 · 761 阅读 · 0 评论 -
python 数据挖掘(6)-- 数据标准化 和 离散化
标准化数据规划化处理是数据挖掘的一项基础工作,为了消除指标之间的量纲和取值范围差异的影响。(1)最小 - 最大规范化 将数据映射到 [min,max](2)零-均值规划化 将数据处理成均值为 0 ,标准差为 1(3)小数定标规划化处理 normalization_data.xls 数据规范化如下#-*- coding:utf-8 -*-import p...转载 2018-08-09 17:19:54 · 3900 阅读 · 1 评论 -
python 数据挖掘(5)-- 拉格朗日插值法
当数据缺失时,我们通常需要填补缺失数据,这里介绍拉格朗日插值法。根据数学知识可以知道,对于平面上已知的 n 个点,可以找到一个 n-1 次多项式,使得多项式经过这 n 个点将 n 个点的坐标(x1,y1),(x2,y2)... (xn,yn)代入多项式函数,得解出拉格朗日插值多项式为:即用拉格朗日插值法处理日销售额数据 catering_sale.xls如下...转载 2018-08-09 15:19:18 · 3657 阅读 · 4 评论 -
python 数据挖掘(4)-- 主要数据分析函数
基本统计函数(1) sum功能:计算数据样本的总和使用格式: D.sum() 样本D 可为 Dataframe 或者 Series(2)mean功能:计算平均数使用格式:D.mean() 样本D 可为Dataframe 或者 Series(3)var功能:计算数据样本的方差使用格式:D.var() 样本D 可为Dataframe 或者 Series(4)st...转载 2018-08-09 13:32:50 · 678 阅读 · 0 评论 -
python 数据挖掘(3)-- 数据特征分析
定量数据的分布分析这就不用多说了,直方图。求极差--> 设定组距-->决定分点 --> 统计频率定性数据的分布分析这也不用多说了,扇形图,条形图统计法对比分析折线图统计量分析均值,中位数,极差,标准之类的就不说了,介绍一下变异系数,它是 标准差除以平均值 。反映了标准差相对于均值的离中趋势。数据:catering_sale.xls#-*- cod...转载 2018-08-08 19:49:04 · 3564 阅读 · 0 评论 -
python 数据挖掘(2) -- 数据质量分析
数据质量分析是数据挖掘中数据准备过程重要的一环,是数据预处理的前提。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据包括缺失值,异常值,不一致的值等等。缺失值缺失值就是由于人为或其他任何原因导致的数据缺失问题,缺失值的处理分为删除存在缺失值的属性、对可能的值进行插补、不处理三种情况。异常值异常值就是不合理的数据,常用的检测方法如下:1) 简单的最大最小统计,比如用户...转载 2018-08-08 17:05:11 · 1249 阅读 · 0 评论 -
python 数据挖掘(1) -- 函数编程的优势和常见工具
函数编程函数编程主要是解决 python 语言效率低下的问题,尤其是python的循环。常见的函数有 map,reduce,filter# python列表解析函数虽然简洁,但是本身是使用python的循环,所以效率无法比拟 c/c++a = [1,2,3,4]a = [i+1 for i in a]# 使用 map 函数编程替代,性能可以媲美 c/c++a = map(lam...转载 2018-08-07 20:19:26 · 806 阅读 · 0 评论 -
python 深度学习(5)-- 随机失活 & 过采样
(1)随机失活随机失活指的是在每轮训练时忽略一定随机数量的神经元,dropout 可能会提高 DNN 性能。随机省略一部分隐藏的神经元的过程称之为 随机失活 。如图阐释一下这种方法:对于每次训练的实例,每个隐藏层的神经元以 p 的概率从网络中随机被忽略。由于神经元是随机选择的,因此每个训练实例选择的都是不同的神经元组合。随机失活并不能保证提高性能,但通常值得一试。牢记以下三点:...转载 2018-07-13 17:41:30 · 3492 阅读 · 0 评论 -
python 深度学习(4)-- 二元分类问题
关于数据集的处理问题,跟回归问题差不多,不再展示数据处理相关步骤和代码。标准化后, 假设 x 为属性数据(属性值构成的二维数组),y 是目标数据(0和1 构成的一维数组)。先简单介绍一下冲量:我们知道,在梯度下降算法中,模型可能被局部极小值捕获,而不是全局极小值。在学习率较小的情况下,增加了这种可能。增大学习率又会使得模型无法稳定,因此,另一个帮助网络脱离局部极小值的技术就是使用冲量。如图...转载 2018-07-13 16:00:56 · 4363 阅读 · 1 评论 -
python 深度学习(3) -- 模型优化准则
(一)激活函数的选择在前面我们提到的激活函数是 sigmoid 函数,但 sigmoid 函数有一个很大的局限性,就是当 x 增大或减少时,它的梯度变得越来也小。如果使用梯度下降或类似的方法,就存在问题。也就是 梯度消失问题 。因为大的负数变为 0 ,大的整数变成 1 这意味着大面积的输入空间被映射到一个非常小的范围。使用不会将输入空间压缩成狭小范围的激活函数,将可以避免梯度消失的问题。用...转载 2018-07-13 11:20:37 · 1917 阅读 · 1 评论 -
python 深度学习(2) -- 神经网络回归模型
我们使用波士顿数据构建我们的神经网络回归模型,样本包含了 14 个变量的 506 个例子/观察 结果。波士顿数据包含在 sklearn 包中from sklearn import datasetsboston = datasets.load_boston()x,y = boston.data,boston.target然后我们将数据进行标准化,在传统的统计分析中,通常将变量进行标准...转载 2018-07-12 18:24:13 · 23630 阅读 · 16 评论 -
python 深度学习(1) -- 拟合函数 y=x**2
一直一来,我们都是用 TensorFlow 框架搭建深度神经网络,但其实 python 也提供了相应的统计和学习模块,比如我们要拟合函数 y = x**2首先生成数据集 x 和标准数据 y = x **2import numpy as npimport pandas as pdimport random# 生成 50 个随机值 xrandom.seed(2018)sample...转载 2018-07-12 15:36:58 · 11544 阅读 · 2 评论