__数据挖掘
冥想者-定
缘起性空
展开
-
用 WEKA 进行数据挖掘
什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它们要所有这些信息干什么?”您可能还会惊奇地发现 Walmart 是最为先进的进行数据挖掘并将结果应用于业务的公司之一。现在世界上几乎所有的公司都在使用数据挖掘,并且目前尚未使用数据挖掘的公司在不久的将来就会转载 2015-07-01 13:47:57 · 564 阅读 · 0 评论 -
决策树算法总结
参考:《机器学习》Tom版 以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独转载 2015-08-06 14:28:36 · 567 阅读 · 0 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性转载 2015-08-06 14:28:11 · 395 阅读 · 0 评论 -
机器学习(三)决策树学习
一.简介 决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。二.决策树的表示法 决策树通过把实例从艮节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点的属性,然后按照给定实例的属性值对应的转载 2015-08-06 15:46:32 · 453 阅读 · 0 评论 -
机器学习所需要的数学知识
第1课 微积分与概率论Taylor展式/牛顿法/梯度/指数族分布/共轭分布第2课 数理统计与参数估计统计量/切比雪夫不等式/大数定理/中心极限定理/参数估计方法第3课 线性代数向量/矩阵/方程/特征向量第4课 凸优化凸集、凸函数、凸优化、KKT条件第5课 回归最小二乘法、梯度下降、稀疏、过拟合、Logistic回归代码示例:使用批处理梯度下降转载 2015-08-06 14:36:38 · 766 阅读 · 0 评论 -
推荐算法工程师
职位描述岗位职责• 基于用户行为的分析、建模,利用用户行为模型给用户进行推荐• 基于用户模型和内容模型,制定推荐算法、策略及相关系统任职要求• 热爱数据,对数据及逻辑关系有感觉,非常敏感,并对数据体系有深入的认识• 对推荐算法、机器学习算法有较好的理论基础或实践经验,深刻理解并独立实现过推荐系统机器学习相关算法• 富有创新精神,善于转载 2015-08-06 15:16:36 · 794 阅读 · 0 评论 -
数据挖掘十大经典算法
算法数据挖掘classificationalgorithmgooglevector国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive转载 2015-08-06 19:59:28 · 377 阅读 · 0 评论 -
线性回归和logistic回归 (linear regression and logistic regression)
http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/1. 线性回归 1.1 定义 给定输入向量,希望预测输出Y。线性回归模型为:其中是截距,是系数,而变量可能来自不同的源(定量输入或者定量输入的变换,多项式表示,变量之间的交互,例如等),但是模型转载 2015-08-19 13:46:17 · 1203 阅读 · 0 评论 -
分类与回归区别是什么?
来源 知乎http://www.zhihu.com/question/21329754/answer/18004852分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。、转载 2015-08-19 16:43:19 · 1079 阅读 · 0 评论 -
置顶] 主题模型-LDA浅析
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2015-08-19 20:36:59 · 467 阅读 · 0 评论 -
你应该掌握的七种回归技术
http://www.csdn.net/article/2015-08-19/2825492摘要:本文解释了回归分析及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵转载 2015-08-21 14:25:26 · 1769 阅读 · 0 评论 -
趋势
什么情况?未来的方向是什么未来会怎么走A 人工智能方向 越来越高科技B 机器学习, 机器人可以做更加多的事情C 更加智能的算法D 更加智能的社会E 大数据里面挖掘出金子F 是的,就是这样的,好的,开始学习吧。有兴趣啊H 运维,前端,设计,产品,市场,推广,产品,开发。I 一个好的产品,一定是非常智能的。是的,开始做吧。转载 2015-09-07 10:10:24 · 361 阅读 · 0 评论 -
数据挖掘十大经典算法(详解)
数据挖掘算法,不是我的强项,对数学,对逻辑有太多的要求了。比较不适合我。 数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过转载 2016-06-15 14:29:10 · 8389 阅读 · 0 评论 -
数据挖掘算法与现实生活中的应用案例
相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。最近两件事挺有感觉的。看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是内敛和克制的…。希望设计成为一种,可以被忽略的存在感”。其次,有感于不断跳Tone的妇科圣手,冯唐,“有追求、敢放弃”是他的标签。“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是转载 2016-06-15 15:03:15 · 3683 阅读 · 0 评论 -
白话一下什么是决策树模型
有一天,小明无聊,对宿舍玩CS的舍友进行统计,结果刚记下四行,被舍友认为影响发挥,给踢到床下去了,让我们看看可怜的小明的记录:-----------------------------武器 | 子弹数量 | 血 | 行为-----------------------------机枪 | 多 | 少 | 战斗机枪 | 少 | 多 | 逃跑转载 2015-08-04 17:49:39 · 366 阅读 · 0 评论 -
Data Mining 数据挖掘学习清单
基础篇矩阵背后的现实意义概率分布无约束最优化方法拉格朗日乘子法和KKT条件推荐相关性检验协同过滤推荐算法分类朴素贝叶斯LRSVM聚类KMeansDBScanCHAMELEONGMM决策树ID3C4.5AdaboostGBDT转载 2015-08-04 17:28:15 · 470 阅读 · 0 评论 -
三大UML建模工具Visio、Rational Rose、PowerDesign的区别
UML建模工具相信大家有所了解,那么你对UML建模工具Visio 、Rational Rose、PowerDesign之间的区别和联系是否了解,这里就像大家简单介绍一下。AD:UML建模工具Visio 、Rational Rose、PowerDesign的比较 ROSE是直接从UML发展而诞生的设计工具,它的出现就是为了对UML建模的支持,ROS转载 2015-07-01 17:51:15 · 644 阅读 · 0 评论 -
关于RapidMiner的几点特征
使用数据挖掘的方法分析大量的数据通常被认为是属于专家们做的事情。这些事情多少还是会有些复杂的分析流程,就像那些昂贵到令人惊讶的软件解决方案,比如产品销售数据的预测。由于项目的复杂性,经常需要各种技术支持,导致了长期以来使用数据挖掘产品会有如此昂贵的license费用。也许有了开源的RapidMiner之后,每个人都会怀疑数据挖掘的软件方案是不是真的这么昂贵和难于学习。 RapidM转载 2015-07-01 18:15:51 · 1632 阅读 · 0 评论 -
RapidMiner适合于数据挖掘的初学者
本帖最后由 Nicolle 于 2014-12-21 09:02 编辑1. 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载转载 2015-07-01 19:58:33 · 1972 阅读 · 0 评论 -
RapidMiner数据挖掘入门之一:概要
1 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML转载 2015-07-01 18:02:31 · 8898 阅读 · 1 评论 -
用RapidMiner搭建推荐系统和评论挖掘系统
RapidMiner是一个开源的数据挖掘软件,提供一些可扩展的数据分析挖掘算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。RapidMiner有一些很有用的扩展包,可以用来搭建推荐系统和评论挖掘系统,一个扩展包是推荐系统扩展包rmx_irbrecommender-ANY-5.0.4.jar,可以直接实现基于内容的和基于协同过滤的推荐系统。另一个扩展包是信息抽取扩展包rapidminer转载 2015-07-01 18:27:33 · 1128 阅读 · 1 评论 -
RapidMiner介绍以及常用问题
RapidMiner(前身是YALE)是一个十分流行的开源数据挖掘软件,它不仅提供了一个GUI的数据处理和分析环境,还提供了Java API以便将它的能力嵌入其他应用程序。本文记录了基于RapidMiner开发数据分析应用程序时遇到的一些问题和解决方法。BTW,选择RapidMiner而非WEKA的主要原因有两个:1、RapidMiner对Java开发更方便 2、Rap转载 2015-07-01 19:54:18 · 1837 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
BY 刘未鹏 – SEPTEMBER 21, 2008POSTED IN: 数学, 机器学习与人工智能, 计算机科学概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,转载 2015-08-08 10:27:20 · 930 阅读 · 0 评论 -
算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决转载 2015-08-08 10:24:10 · 440 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(二):过滤垃圾邮件
有关贝叶斯原理的讲解, 请查看这里。这里讲述的是通过贝叶斯推断如何过滤垃圾邮件。贝叶斯推断及其互联网应用 (接上文)七、什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法”和“校验码法”等。前者的过滤依据是特定的词语;后者则是计算邮件文本的转载 2015-08-11 15:23:05 · 819 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
转: http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/POSTED IN: 数学, 机器学习与人工智能, 计算机科学概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的转载 2015-08-10 20:13:10 · 596 阅读 · 0 评论 -
算法——贝叶斯
转:http://www.cnblogs.com/skyme/p/3564391.html简介学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率。由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)和P(B)可转载 2015-08-10 20:20:27 · 640 阅读 · 0 评论 -
关于机器学习
关于机器学习,个人觉得主要是算法比较多吧。分类,聚类,监督,非监督,关联关系,等等,那些玩意,基本上是一个很大的学科,我做不完啊,目前算法我还是看好推荐系统的。】我们使用工具,还是使用spark吧恩恩, 就攻击一个看了很多文章,大同小异看不懂一个,很难理解其他的就看这个吧还有面试问道你如果答的模糊也不行啊,基本上都需要精通的人才,才行的恩转载 2015-08-14 17:36:01 · 310 阅读 · 0 评论 -
Spark MLlib之协同过滤
什么是协同过滤协同过滤(Collaborative Filtering, 简称CF),wiki上的定义是:简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯,回应不一定局限于特别感兴趣的,特别不感兴趣资讯的纪录也相当重要。以上定义太拗口,举个简单的例子:我现在多转载 2015-08-14 16:50:29 · 643 阅读 · 0 评论 -
大数据避不开的9大应用场景
今天,我们来讲讲大数据避不开的9大应用场景。假如以下应用场景听上去那么像你所在的企业,你可要认真开始考虑大数据分析工具,这将是一项合理的投资喔!作者:佚名来源:36大数据|2015-09-18 11:28 收藏 分享今天,我们来讲讲大数据避不开的9大应用场景。假如以下应用场景听上去那么像你所在的企业,你可要认真开始考虑大数据分析工具,这将是转载 2016-06-15 15:04:36 · 1127 阅读 · 0 评论