数据挖掘
风景不在对岸wj
这个作者很懒,什么都没留下…
展开
-
数据挖掘(六):预测
数据挖掘的任务分为描述性任务(关联分析、聚类、序列分析、离群点等)和预测任务(回归和分类)两种。本文简介预测任务。数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体转载 2016-03-30 21:57:43 · 1692 阅读 · 0 评论 -
语音信号处理之(一)动态时间规整(DTW)
http://blog.csdn.net/zouxy09 这学期有《语音信号处理》这门课,快考试了,所以也要了解了解相关的知识点。呵呵,平时没怎么听课,现在只能抱佛脚了。顺便也总结总结,好让自己的知识架构清晰点,也和大家分享下。下面总结的是第一个知识点:DTW。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。 Dynamic T转载 2016-09-20 16:59:32 · 1290 阅读 · 0 评论 -
广告点击率预测 [离线部分]
广告点击率预测屈伟 / Koala++ 先声明一下,本文所提到的所有的点击率预测的技术不是我在的团队使用的,因为我们团队使用的技术是保密的,所以我也不知道他们是怎么做的。事实上我不知道广告点击率怎么预测的,认识我的人都知道,我就是最喜欢舞那开始三板斧的人,然后我就想扔了板斧投降了。也希望各位能指正我所写的内容中的错误之处,给我一下学习第四斧的机会。转载 2017-05-27 20:53:56 · 585 阅读 · 1 评论 -
广告点击率预估中的特征选择
一.互联网广告特征project博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,能够看到,当中的logistic regression模型是比較简单并且有用的,其训练方法尽管有多种,但目标是一致的。训练结果对效果的影响是比較大。可是训练方法本身,对效果的影响却不是决定性的,由于训练的是每一个特征的权重,权重细微的区别不会引起ctr的巨大变化。在训练方法确定后,对ct转载 2017-05-27 21:19:38 · 7496 阅读 · 1 评论 -
定向展示广告投放中的点击率预估模型简介
平台中有一些栏位是留给广告投放用的,对于平台来讲需要关注整体受益,用户需要关注用户体验,广告主需要进行精准的把广告投放给受众,提高转化率。广告投放给用用户展示,最重要的是排序,之前的排序公式是ctr*Bid,其中ctr是广告的历史点击率,Bid是广告主的出价。缺点是存在广告的冷启动和缺乏用户个性化诉求;对于新上架的广告,投放量太少,数据有偏,可以采用点击率平滑的方式,在广告投放前设置一个默认的转载 2017-05-27 21:29:57 · 2302 阅读 · 0 评论 -
数据科学入门,使用 xgboost 初试 kaggle
kaggle 目前是散兵游勇使用真实数据进行机器学习实践的最佳场所,拥有真实的数据和大量有经验的参赛者,以及良好的讨论共享氛围。基于树的 boosting/ensemble 方法在实战中取得良好效果,陈天奇提供的高质量的算法实现 xgboost 也使得构建基于该方法的解决方案更加容易高效,很多比赛的获胜方案都使用了 xgboost 。本文记录一个从零开始到最终用 xgboost转载 2017-05-30 16:44:18 · 2324 阅读 · 0 评论 -
xgboost入门与实战(实战调参篇) 标签: xgboostpythonkaggle机器学习
xgboost入门与实战(实战调参篇)原文地址前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famo转载 2017-05-30 21:47:34 · 10363 阅读 · 1 评论 -
广告点击率预估是怎么回事?
原文地址点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。一直想介绍一下点击率预估,但是涉及公式和模型理论太多,怕说不清楚,读者也不明白。所以,这段时间花了一些时间整理点击率预估的知识,希望在尽量不使用数据公式的情况下,把大道理讲清楚,给一些不愿意看公式的同学一个Cook Book。点击率预测是什么?点击率预测是对每次广告的点击情况做出预测,可以转载 2017-06-02 10:12:25 · 12042 阅读 · 0 评论 -
Kaggle实战(二)
原文地址上一篇都是针对小数据集的,入门不建议从大数据集开始,可以不用考虑机器内存,不用out-of-core的online learning,不用考虑分布式,可以专注模型本身。接下来我做了两个广告CTR预估相关的比赛,不过比赛当时都已经closed了,还好,我们还可以提交结果看看close时能排到的位置。比赛实战6. Display Advertising ChallengeP转载 2017-06-02 11:37:09 · 2858 阅读 · 2 评论 -
谱聚类算法(Spectral Clustering)
原文地址 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图转载 2017-07-08 21:25:10 · 601 阅读 · 0 评论 -
相对熵(KL散度)
今天开始来讲相对熵,我们知道信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。下面是熵的定义 如果一个随机变量的可能取值为,对应的概率为,则随机变量的熵定义为 有了信息熵的定义,接下来开始学习相对熵。 Contents 1. 相对熵的认转载 2017-09-03 17:38:00 · 10354 阅读 · 0 评论 -
数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随转载 2016-09-19 10:12:40 · 1328 阅读 · 0 评论 -
朴素贝叶斯算法的python实现
朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据算法思想:朴素贝叶斯比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的是这个邮件中的词的分布,那么我们还要知道:垃圾邮件中某些词的出现是多少,就可以利用贝叶斯定理得到。朴素贝叶斯分类器中的一个假设是:每个特征同等重要转载 2016-09-19 10:10:26 · 1057 阅读 · 0 评论 -
8大经典数据挖掘算法
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决转载 2016-09-04 10:12:50 · 3855 阅读 · 0 评论 -
6.2.4 随机游走(Random Walk)
随机游走这一名称由Karl Pearson在1905年提出[Pearson, K. (1905). The problem of the Random Walk. Nature. 72, 294.],本来是基于物理中"布朗运动"相关的微观粒子的运动形成的一个模型,后来这一模型作为数理金融中的重要的假设,指的是证券价格的时间序列将呈现随机状态,不会表现出某种可观测或统计的确定趋势,即证券价格的变动是转载 2016-03-31 11:22:03 · 18292 阅读 · 0 评论 -
Apriori算法
Apriori算法是我的第一个数据挖掘算法,算处女作吧,哈哈哈。在这之前我对数据挖掘算法恐惧,觉得太难了,只是大致看了下原理,然后在clementine上拖几个控件跑下demo,运行的结果很好但是总觉得技术含量不高,我不知道为什么要这么做,为什么那些参数要那么设置,更糟糕的是发现那些算法过一段时间都忘记了。没办法,不入虎穴焉得虎子,我逼迫自己根据书上提供的讲解和伪码,琢磨着用什么数据结构保存数据?转载 2016-05-12 10:44:27 · 484 阅读 · 0 评论 -
Apriori算法简介及实现(python)
Apriori这个词的意思是“先验的”,从priori这个词根可以猜出来~;) 。该算法用于从数据中挖掘频繁项数据集以及关联规则。其核心原理是基于这样一类“先验知识”: 如果一个数据项在数据库中是频繁出现的,那么该数据项的子集在数据库中也应该是频繁出现的(命题1)$$ \forall X,Y\in J:(X\subseteq Y)\rightarrow f(X)\leq f转载 2016-05-12 15:19:21 · 3871 阅读 · 0 评论 -
目前网络上开源的网络爬虫以及一些简介和比较
目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表:下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较:Nutch开发语言:Javahttp://lucene.apache.org/nutch/简介:Apache的子项目之一,属转载 2016-05-02 09:52:55 · 3038 阅读 · 0 评论 -
数据挖掘学习札记:KNN算法(一)
参考:1. KNN算法介绍,Python程序和一个简单算例2. k-nearest neighbor algorithm基本想法:在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。俗话叫,“随大流”。算法描述:[plain] view plain copy转载 2016-05-26 22:00:44 · 525 阅读 · 0 评论 -
KNN算法的Python实现
最近在看机器学习,第一章就介绍了最简单的KNN算法,一下就是KNN算法的Python实现,要运行这个代码,需要安装Python(x,y)。from numpy import *import operatordef classify(inMat,dataSet,labels,k): dataSetSize=dataSet.shape[0] #KNN的算法核心就是欧式转载 2016-05-27 20:48:06 · 773 阅读 · 0 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2016-06-24 08:52:43 · 467 阅读 · 0 评论 -
机器学习经典算法详解及Python实现–决策树(Decision Tree)
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的。直观看上去,决策树分类器就像判断模块和终转载 2016-06-24 09:14:34 · 8382 阅读 · 0 评论 -
主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2016-07-05 09:27:19 · 607 阅读 · 0 评论 -
机器学习实战笔记3(决策树与随机森林)
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。1:简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。 事件ai发生的概转载 2016-06-19 15:46:11 · 1485 阅读 · 0 评论 -
HITS算法--从原理到实现
原博客链接1. 算法来源1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hu转载 2016-09-09 11:06:01 · 3557 阅读 · 1 评论 -
谱聚类(spectral clustering)原理总结
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法原理做一个总结。1. 谱聚类概述 谱聚类是从图论中演化出来的算法,后来在聚类中转载 2017-12-17 21:34:55 · 1277 阅读 · 0 评论