jumdar-CSDN博客

原创关联分析——Apriori算法

（一）Apriori算法Apriori算法是由Agrawal 和Srikant在1994年提出，是数据挖掘的经典算法之一。其基本的思路如下：1）令k = 12）统计每个k项集的支持度，并找出频繁k项集3）利用频繁k项集生成候选k+1项集4）令k=k+1，重复第2）步这里我们要思考两个问题：为什么这个算法是有效的？候选集的构造到底是怎么回事？先探讨第一个问题...

2019-01-09 10:04:06 1169

原创关联分析——基本概念以及常用术语

想必大家都听说过啤酒和尿布的故事，这种烂大街的例子很好的反映出关联分析的本质，这里简要提提这个所谓的啤酒和尿布。有好事人儿发现周末的夜晚，家庭妇男为了和球赛度过一个美丽的夜晚，需要啤酒相伴，这个时候，一家之主兼政委主席——你的妻子却还需要照顾孩子，“想看球赛没问题，买啤酒顺便买尿布”。对购物篮进行分析之后，惊喜的发现还真有这么回事儿。这例子孰真孰假不得知，但起码它反映出了数据分析的价值...

2019-01-07 12:29:44 2894

原创数据相似性的度量

在聚类、离散点分析等应用场景，我们往往需要度量数据之间的相似程度，提高模型的泛化性。（一）首先，我们先从用于数据相似性度量的基本数据结构开始：数据矩阵和相异性矩阵。数据矩阵：或称对象-属性结构，矩阵每一行代表一个数据对象，每一列代表一个属性。相异性矩阵：或称对象-对象结构，顾名思义，矩阵的行与列均为数据对象，但是矩阵每一个单元的值d（i，j）代表着i与j这两个数据对象之间的邻近度，其值...

2019-01-05 20:16:27 5905

原创模型评估标准常用指标

一、分类指标样本中存在两种两种标签：样本真实标签和模型预测标签。根据这两个标签可以得到一个混淆矩阵：每一行代表样本的真实类别，数据总数表示该类别的样本总数。每一列代表样本的预测类别，数据总数表示该类别的样本总数。分类模型的评价指标主要基于混淆矩阵。二、混淆矩阵三、正确率用来表示模型预测正确的样本比例。定义如下：四、精度和召回率精度和召回率是比正确率更好...

2019-01-04 20:08:50 13011

原创数据预处理——数据可视化的常用方法

基于像素的可视化技术：每一维度创建一个窗口，记录的m个维值映射到m个像素，像素颜色的深浅代表着对应的值。缺点在于对于我们理解多维空间的数据分布帮助不大。从该图中，可以发现：income与credit_limit为一个正相关，而与age没有半毛钱的关系。若想通过二维图形表示多维的数据，可以考虑使用空间填充曲线，如希尔伯特曲线、格雷码、z-曲线。 ...

2019-01-04 19:55:42 4122

原创数据预处理——基本统计描述（一）

如果想要进行一次成功的数据预处理，把握数据的全貌是至关重要的。而基本统计描述可以用来识别数据的性质，即数据的分布特点，如离散点的识别问题等。中心趋势度量：均值、中位数、众数均值：衡量一组数据的平均水平，不必多说。可是需要主要的是若数据之间的对结果的影响程度是不一样的，那么可以采用加权均值，通过权重来改变各个变量对均值的影响程度。但是，均值对于极值点很敏感，所以也常常采用截尾均...

2019-01-03 15:10:25 3373

jumdar的博客

原创关联分析——Apriori算法

原创关联分析——基本概念以及常用术语

原创数据相似性的度量

原创模型评估标准常用指标

原创数据预处理——数据可视化的常用方法

原创数据预处理——基本统计描述（一）

空空如也

空空如也

原创 关联分析——Apriori算法

原创 关联分析——基本概念以及常用术语

原创 数据相似性的度量

原创 模型评估标准常用指标

原创 数据预处理——数据可视化的常用方法

原创 数据预处理——基本统计描述（一）

空空如也

空空如也

原创关联分析——Apriori算法

原创关联分析——基本概念以及常用术语

原创数据相似性的度量

原创模型评估标准常用指标

原创数据预处理——数据可视化的常用方法

原创数据预处理——基本统计描述（一）