数据挖掘
文章平均质量分 77
chixujohnny
蚂蚁金服-高级算法工程师
展开
-
频繁模式挖掘Apriori算法详解
本数据挖掘算法是本人进入研究生学习阶段进行的第一项“比较难”的学习,下文除了源代码有参考Zealseeker博主之外均为原创手打,如有哪里写的不严谨,望请谅解。 首先频繁模式(Frequent Patten)表示频繁的出现在数据集中的模式,举个例子,去烧烤摊点串,这种菜单上的内容就是一种频繁模式,因为会有某种串被点了很多根,那么这就视为是一种“频繁”的成员,同时还有两个比较重要的概念原创 2015-08-03 13:23:50 · 6304 阅读 · 1 评论 -
商品评论中的实体情感分析
在之前的文章中我已经将商品评论中的评价实体,也就是特征(feature)给挖掘出来了,我看了一下,挖掘的效果还是不错的。原文链接:http://blog.csdn.net/chixujohnny/article/details/52794685下面一步要做的是施加情感因子,也就是说,要将人们评论时候所连带的感情程度施加一下。这项任务的归类应该是情感分析技术。目前该类问题的情感分析技原创 2017-01-04 00:03:43 · 7571 阅读 · 7 评论 -
服务产品(商品)评论中的产品特征挖掘方法
也是好久没写博客了,前段时间一直在找工作,没有做什么实质性的工作。最近工作也定下了,百度流量质量控制部的反作弊算法团队,不算是百度的什么土豪团队,但是99%以上的流量收入都是要从这个团队过一遍的,团队资历实力可见一斑。好了不吹b了,说说这个阶段要做的东西:从服务产品的评论中挖掘服务产品的特征,不理解的话举个例子:“这饭店环境还真是不错,就是菜码有点太大了!”很明显,加了高亮部分原创 2016-10-13 10:39:49 · 4679 阅读 · 0 评论 -
(原创)Bugzilla众包行为模式挖掘
论文名为:The Firefox Temporal Defect Dataset这篇论文是加拿大学者在去年夏天时在Bugzilla上的Firefox的bug反馈讨论组中的1998~2014年反馈数据得到的一些挖掘成果,其实说是成果也可能抬高了它,其实就是发现了在bug反馈的过程中,开发者之间存在着某种比较频繁的交流模式。具体这种模式是什么样的,在后文会有提及,这与我目前所做的课题很相似,所原创 2016-02-24 13:32:40 · 990 阅读 · 4 评论 -
(源码)关于A->B*->D的时间序列频繁模式挖掘的思考 1.26更新
这个算法是导师课题的一个部分,感觉对时间序列频繁模式挖掘的学习还是很有帮助的,在博客里做一下记录。首先要明确一下什么是A->B*->D模式:A->B->D表示在A事件发生后又发生了B事件,又发生了D事件,由于我应用在社交网络,那么这三种事件就可以表示为三个人在某微博下的留言。什么是A->B*->D模式?这里的*表示不管在A与D时间发生的时间点当中有多少个B事件发生,都可原创 2016-01-23 14:08:01 · 1664 阅读 · 0 评论 -
聚类算法(三):层次聚类 Hieriachical算法
层次聚类算法是对给定的数据集进行层次的分解,知道满足某种条件为止。这里我主要演示凝聚型层次聚类,凝聚型是有多个簇合并成较少的簇的过程,下面对算法进行讲解:算法:Hieriachical输入:数据集D输出:各个簇的集合N1.将每个对象归为一类, 共得到N类, 每类仅包含一个对象. 类与类之间的距离就是它们所包含的对象之间的距离.2.找到最接近的两个类并合并成一类, 于是总的类原创 2015-12-21 21:29:12 · 1256 阅读 · 0 评论 -
时间序列频繁模式挖掘:A->(EFG)->C 模式的思考
首先了解一下 A->(EFG)->C 是个什么形式:这里面被括号包覆的部分表示EFG是无序存在的,比如EFG,EGF,GEF,GFE他们都可以统一写成(EFG)的形式,假设这四个项集都只在A~C的时间段内出现了一次,但是一旦把他们看成(EFG)的形式,那么他们就相当于出现了四次,如果min_sup这种挖掘模式的意义:导师没有跟我说明这种挖掘模式的意义何在,我大概想了一下可能原创 2015-12-18 11:14:07 · 2151 阅读 · 0 评论 -
聚类算法(二):DBSCAN算法
首先确保你在动手写代码之前已经了解什么是聚类分析。DBSCAN算法----一种基于密度的聚类算法。DBSCAN算法是如何发现簇的呢?1.首先,给定数据集D中的所有对象都被标记为unvisited2.随机的选择一个未访问的对象p,标记为visited3.检查p的e-邻域是否至少包含MinPts个点4.如果不是则标记为噪声点,否则为p创建一个簇C,并且把p的e-邻域中的所有原创 2015-12-17 12:46:57 · 1752 阅读 · 2 评论 -
聚类算法(一):k-均值 (k-means)算法
首先确保你在动手写代码之前已经了解什么是聚类分析。k-均值算法----一种基于形心地技术的聚类算法。k-均值算法的英文名是k-means,那么这个算法是怎么工作的呢?k-均值算法把簇的形心定义为簇内点的均值。它的处理流程如下:1.在数据点集D中随机的选择k个对象(这个k表示你要讲数据集分成几个簇),每个对象代表一个簇的初始均值或中心。2.对剩下的每个对象,根据其与哥哥簇中心的欧氏距离,原创 2015-12-16 20:23:35 · 6533 阅读 · 2 评论 -
时间序列频繁模式挖掘:GSP算法、SPADE算法
什么是时间戳概念的频繁模式挖掘?所谓时间戳(time-stamp)就是加入了时间序列的概念,即每次发生的时间都有时间先后的顺序,在前面讲解的Apriori算法中并没有加入此概念,虽然Apriori加入了先验性质以减少每轮遍历的次数,但是由于加入了“时间发生先后”的概念,导致时间复杂度大大增加,无疑需要一种新颖的办法解决该问题。原创 2015-08-07 10:55:55 · 20446 阅读 · 11 评论 -
服务价值特征分布的演化预测
问题描述:挖掘不同服务价值特征(评价实体)并计算权重值,生成在各个时间段的分布情况。通过已知的时间序列分布,预测未来某个时刻的服务价值特征权重值。数据的形式如下图所示:每一行表示一个服务价值特征(评价实体),每一列表示一段时间,比如某一个月、某一天等等,每一列是严格按照时间顺序由远及近排列的。假设我们的目标是预测上图中month_j+1这一列中的所有数值(也可以预测更加原创 2017-03-06 10:38:00 · 1383 阅读 · 0 评论