- 博客(16)
- 收藏
- 关注
转载 关联规则之购物篮分析
购物篮分析常用于许多实体商店和在线零售的推荐系统,通过关联规则,可以将经常一起购买的商品进行组合,实现销量的提升。关联规则中有三个非常重要的指标:支持度、可信度和提升度。...
2015-12-30 08:47:39 4633 2
转载 Python从0开始--学习旅程3
一、Python控制流1、Python if分支语句if 单分支语法if condition: statement statement ...例子:In [1]: cou...
2015-12-29 09:16:24 119
转载 Python从0开始--学习旅程2
学习内容及总结一、常量常量,顾名思义即为不变的量,可以是字符型常量和数值型常量,下面看看在Python中如何表达这两类常量:字符型常量必须以单引号、双引号或三重引号引起来...
2015-12-27 16:03:23 104
转载 Python从0开始--学习旅程1
原计划2016年1月开始进行Python旅程,昨天圣诞,提前将计划上了日程,恰好1989年的圣诞她诞生了,度过了第26年。她是一门伟大的动态语言,广泛地应用于系统管理和W...
2015-12-26 12:23:13 104
转载 R中常用数据挖掘算法包
数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。R语言博大精深,吸纳了来自各方的挖掘算法包,这些包都是由统计学家或是算法研究人员提供,我...
2015-12-22 21:33:11 260
转载 使用集成算法实现客户流失预警分析
决策树算法简单易用,便于解释,在分类问题中运用非常广泛,如果将很多棵决策树绑定在一起进行分类变量的预判或连续变量的预测,将会是一个什么结果呢?其实,这个思想就是集成,通过...
2015-12-21 08:17:58 542
转载 使用支持向量机进行光学字符识别
支持向量机是数据挖掘中的一项新技术,是借助于最优化方法来解决机器学习问题的新工具,开始成为克服“维度灾难”和过学习等困难的强有力手段。支持向量机算法的任务就是寻找一块超平...
2015-12-20 12:39:09 1214
转载 人工神经网络之乳腺癌识别
人工神经网络是一种类似于大脑神经突触连接的结构进行信息处理的数学模型,由大量的输入层节点、隐藏层节点和输出层节点连接构成。其构造类似于下图:上图中明确显示了输入层、隐藏层...
2015-12-19 19:04:49 1191
转载 连续因变量的预测--葡萄酒评分预测
在前面几篇文章中都是对分类变量的判别,即根据建立的分类器,预测未知样本所属的类别。本文将从连续因变量的角度,预测新样本可能的Y值。对于连续变量的预测模型,往往会想到回归,...
2015-12-18 22:45:16 1408 2
转载 强大的data.table包
在写《R中的apply簇函数》一文时同学王修坤推荐使用data.table包,他提出该包针对大批量数据和分组处理数据时会非常迅速。这几天研究了一下该包,确实觉得非常的伟大...
2015-12-16 08:27:18 208
转载 规则学习算法之毒蘑菇识别
分类算法有很多,比较常用且简单、易于理解和解释的决策树算上一个(有关决策树算法的应用可以参考本公众号9月19和20日的文章:基于R语言的数据挖掘之决策树)。在学习机器学习...
2015-12-13 15:01:13 3089
转载 朴素贝叶斯分类之垃圾短信识别
在上一篇文章中我们使用最邻近算法knn实现医学中乳腺癌的判别,本文继续探讨分类算法,该算法是朴素贝叶斯分类算法,它有着非常多的优点,具体表现在简单、快速、有效,对噪声数据...
2015-12-12 13:27:59 3062 3
转载 分类算法之knn
knn概念本文从机器学习中的分类算法knn开始讲起,knn即k邻近算法,该算法就是将未分类的样本归为最相似的已分类样本中,而且该算法简单有效,对数据的分布不作任何要求。其...
2015-12-10 23:21:24 313
转载 R语言读取外部数据
使用R语言作数据分析时,往往需要读入外部数据,常用的外部数据有文本文件型、电子表格型和数据库型。本文将对以上三种外部数据的读取做一个汇总。一、读取文本文件一般采用read...
2015-12-09 08:28:12 1245
转载 ggplot2作图之分面操作
在上一篇文章中,以量化的形式探索连续型数据的几个简单统计量,本文将使用ggplot2的分面功能探索数据。分面是一个强大有力的工具,可以通过分面图快速地分析出数据各子集模式...
2015-12-08 08:41:01 1552
转载 数据探索
数据探索一般是数据分析的第一步,可以大致了解数据的分布情况,如均值、标准差、最小值、最大值、四分位数等。本文采用,尝试用R语言自定义函数实现SAS或SPSS的输出风格。R...
2015-12-01 18:46:58 83
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人