自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 关联分析——Apriori算法

(一)Apriori算法Apriori算法是由Agrawal 和Srikant在1994年提出,是数据挖掘的经典算法之一。其基本的思路如下:1)令k = 12)统计每个k项集的支持度,并找出频繁k项集3)利用频繁k项集生成候选k+1项集4)令k=k+1,重复第2)步这里我们要思考两个问题:为什么这个算法是有效的? 候选集的构造到底是怎么回事?先探讨第一个问题...

2019-01-09 10:04:06 1169

原创 关联分析——基本概念以及常用术语

想必大家都听说过啤酒和尿布的故事,这种烂大街的例子很好的反映出关联分析的本质,这里简要提提这个所谓的啤酒和尿布。有好事人儿发现周末的夜晚,家庭妇男为了和球赛度过一个美丽的夜晚,需要啤酒相伴,这个时候,一家之主兼政委主席——你的妻子却还需要照顾孩子,“想看球赛没问题,买啤酒顺便买尿布”。对购物篮进行分析之后,惊喜的发现还真有这么回事儿。这例子孰真孰假不得知,但起码它反映出了数据分析的价值...

2019-01-07 12:29:44 2894

原创 数据相似性的度量

在聚类、离散点分析等应用场景,我们往往需要度量数据之间的相似程度,提高模型的泛化性。(一)首先,我们先从用于数据相似性度量的基本数据结构开始:数据矩阵和相异性矩阵。数据矩阵:或称对象-属性结构,矩阵每一行代表一个数据对象,每一列代表一个属性。 相异性矩阵:或称对象-对象结构,顾名思义,矩阵的行与列均为数据对象,但是矩阵每一个单元的值d(i,j)代表着i与j这两个数据对象之间的邻近度,其值...

2019-01-05 20:16:27 5905

原创 模型评估标准常用指标

一、分类指标样本中存在两种两种标签:样本真实标签和模型预测标签。 根据这两个标签可以得到一个混淆矩阵:每一行代表样本的真实类别,数据总数表示该类别的样本总数。 每一列代表样本的预测类别,数据总数表示该类别的样本总数。 分类模型的评价指标主要基于混淆矩阵。二、混淆矩阵三、正确率用来表示模型预测正确的样本比例。 定义如下:四、精度和召回率精度和召回率是比正确率更好...

2019-01-04 20:08:50 13011

原创 数据预处理——数据可视化的常用方法

基于像素的可视化技术:每一维度创建一个窗口,记录的m个维值映射到m个像素,像素颜色的深浅代表着对应的值。缺点在于对于我们理解多维空间的数据分布帮助不大。       从该图中,可以发现:income与credit_limit为一个正相关,而与age没有半毛钱的关系。       若想通过二维图形表示多维的数据,可以考虑使用空间填充曲线,如希尔伯特曲线、格雷码、z-曲线。       ...

2019-01-04 19:55:42 4122

原创 数据预处理——基本统计描述(一)

        如果想要进行一次成功的数据预处理,把握数据的全貌是至关重要的。而基本统计描述可以用来识别数据的性质,即数据的分布特点,如离散点的识别问题等。中心趋势度量:均值、中位数、众数均值:衡量一组数据的平均水平,不必多说。可是需要主要的是若数据之间的对结果的影响程度是不一样的,那么可以采用加权均值,通过权重来改变各个变量对均值的影响程度。但是,均值对于极值点很敏感,所以也常常采用截尾均...

2019-01-03 15:10:25 3373

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除