自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mousever的专栏

乘风破浪欲前行

  • 博客(18)
  • 收藏
  • 关注

转载 从贝叶斯定理说开去

简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有 N 个白球,M 个黑球,你伸手进去摸一把

2015-12-29 21:37:22 448

转载 Frequent Pattern 挖掘之二(FP Growth算法)

FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。请看下面这个例子:Pattern 挖掘之二(FP Growth算法)(转

2015-12-29 17:28:21 689

转载 频繁项集挖掘之apriori和fp-growth

Apriori和fp-growth是频繁项集(frequent itemset mining)挖掘中的两个经典算法,主要的区别在于一个是广度优先的方式,另一个是深度优先的方式,后一种是基于前一种效率较低的背景下提出来的,虽然都是十几年前的,但是理解这两个算法对数据挖掘和学习算法都有很大好处。在理解这两个算法之前,应该先了解频繁项集挖掘是做什么用的。频繁项集挖掘是关联规则挖掘中的首要

2015-12-29 13:29:18 4851

转载 如何构建用户画像

从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线

2015-12-28 21:46:53 679

转载 高斯模糊的算法

作者: 阮一峰日期: 2012年11月14日通常,图像处理软件会提供"模糊"(blur)滤镜,使图片产生模糊的效果。"模糊"的算法有很多种,其中有一种叫做"高斯模糊"(Gaussian Blur)。它将正态分布(又名"高斯分布")用于图像处理。本文介绍"高斯模糊"的算法,你会看到这是一个非常简单易懂的算法。本质上,它是一种数据平滑技术(data smooth

2015-12-27 22:02:22 469

转载 贝叶斯推断及其互联网应用(三):拼写检查

作者: 阮一峰日期: 2012年10月16日(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling corr

2015-12-27 21:53:47 390

转载 贝叶斯推断及其互联网应用(二):过滤垃圾邮件

贝叶斯推断及其互联网应用        (接上文)七、什么是贝叶斯过滤器?    垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。    正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法”和“校验码法”等。前者的过滤依据是特定的词语;后者则是计算邮件文本的效验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。

2015-12-27 21:35:31 974

转载 贝叶斯推断及其互联网应用(一):定理简介

为了更好的了解贝叶斯定理以及相关的应用,特地找来三篇文章进行学习,以下是文章的链接,感谢原作者:    http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html        贝叶斯推断及其互联网应用       一、什么是贝叶斯推断    贝叶斯推断是一种统计学方法,用来

2015-12-27 21:10:03 679

转载 人工神经网络之乳腺癌识别

人工神经网络是一种类似于大脑神经突触连接的结构进行信息处理的数学模型,由大量的输入层节点、隐藏层节点和输出层节点连接构成。其构造类似于下图:上图中明确显示了输入层、隐藏层和输出层,红框表示节点与节点之间连接函数(或激活函数),黄框表示上一个节点到下一个节点变换权重。所以,有关神经网络算法最核心的三个问题就是:选择激活函数、隐藏层数目和节点的确定以及权重的设置。一、选择激

2015-12-19 19:17:51 4067

转载 Spss K-means聚类分析案例——某移动公司客户细分模型

近期在整理一些分析文档,觉得这个作为入门很是不错,特在此整理下。聚类分析在各行各业应用十分常见,而顾客细分是其最常见的分析需求,顾客细分总是和聚类分析挂在一起。顾客细分,关键问题是找出顾客的特征,一般可从顾客自然特征和消费行为入手,在大型统计分析工具出现之前,主要是通过两种方式进行“分群别类”,第一种,用单一变量进行划段分组,比如,以消费频率变量细分,即将该变量划分为几个段,高频客

2015-12-14 13:16:43 18914

转载 R语言 | 关联规则

1.概念1.1 引论关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他类似于购

2015-12-11 14:28:27 1902 3

转载 协同过滤 算法改进

基于用户的协同过滤推荐基于用户的协同过滤(user-based CF)是基于这样一个事实:每个用户都有与其具有相似兴趣爱好和购买行为的用户群,这些相似用户(邻居用户)的购买项目可以作为对当前用户(目标用户)进行项目推荐的基础。因此,这种方法也被称为基于邻居的协同过滤或最近邻居算法。设R是一个n×m用户-项目矩阵,其中n代表用户数、m代表项目数。在这个矩阵中,如果第i个用户购买了第j

2015-12-11 13:57:57 7617

转载 推荐系统之协同过滤概述

协同过滤(Collaborative Filtering)是现今推荐系统中应用最为成熟的一个推荐算法系类,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯(参考wiki,文字有点生硬,不过却很好的描述了协同过滤的一个互动性:用户参与用户获益)。边整理边写了整整一天o(╯□╰)o

2015-12-11 13:44:01 16940

转载 统计与R入门: 回归分析

内容:回归零假说显著性检验中央极限定理抽样分布一般线性模型方差分析调节中介路径模型回归 (regression)回归:用一个或多个预测变量(predictor)来预测结果变量(outcome variable)值的 统计 分析简单回归:使用一个预测变量多元回归:使用多个预测变量简单回归的公式为:Y=B 0 +B 1 X 1 +e,其中:Y是X 1 的

2015-12-09 13:30:38 32211

转载 电信用户分群精准画像的7个步骤

1、业务问题背景某省电信运营商e8套餐(宽带+固话)升级e9(宽带+固话+手机)的主要业务目标为针对e8客户加装电信C网号码并购买手机,升级为e9融合套餐或e9自主套餐用户。即,通过电信的自身的宽带客户资源,进行精准电话营销,促使用户购买手机,从而提升电信在手机市场的占有率。2、数据理解:e8升e9的数据理解3、确定分析对象本环节关键点:

2015-12-05 22:16:13 5897

转载 基于数据挖掘的客户流失分析案例

客户挽留在很多行业都是一个备受关注的问题,比如电信、银行、保险、零售等。要做客户挽留就需要对客户流失进行预警、客户流失原因分析、客户满意度或忠诚度研究、客户生命周期研究等相关问题进行深入而全面的分析。例如,对客户的行为特征进行分析,可以了解有多少客户流失,客户是什么时候流失的,以及客户是如何流失的等问题,从而监控客户流失、实现客户关怀。应用数据挖掘技术可以根据过去拥有的客户流失数据

2015-12-05 22:08:41 7626 2

转载 模块度与Louvain社区发现算法

Louvain 算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。模块度( Modularity  ) 模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数只差,它的取值范围是 [−1/2,1),其定义如下:$$Q = \frac{1}{2m}\su

2015-12-05 21:44:08 12497 3

转载 iGraph库中Community Detection方法比较

    复杂网络的使用中,有这么几个库:表格来自:http://bbs.sciencenet.cn/blog-404069-297233.html库名称原始开发语言可用某语言调用BGLC++C++/ Python(通过boost-python)QuickGraph   C#支持.NET平台的任何语言(Pytho

2015-12-05 19:39:07 11277

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除