13.2.Big Data & OLAP
文章平均质量分 51
leoIsCoding
Github : [ https://github.com/leoChaoGlut ]
Email : [ leoIsCoding@163.com ]
展开
-
数据挖掘十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,转载 2016-10-27 21:09:37 · 492 阅读 · 0 评论 -
ROLAP、MOLAP和HOLAP联机分析处理区别
第一篇: OLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”(dimension)是人们观察客观世界的角度,是一种高层次的转载 2017-10-06 22:14:47 · 767 阅读 · 0 评论 -
Kylo 0.8.3 安装
前置条件- kylo-0.8.3.deb(待安装) - ubuntu 14.04(已安装) - jdk 8(已安装) - mysql 5.6(已安装) - HDP 2.6(已安装) - HDF 3.0.1.0(包含nifi1.2)(已安装)- cd /opt/kylo/setup - 只安装activemq和elasticsearch,不安装nifi,使用HDF里的nifi 安装脚本修改说明: 如原创 2017-09-20 10:57:35 · 1675 阅读 · 0 评论 -
Parquet与ORC性能测试报告
一、环境说明 Hadoop集群:使用测试hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下: CPU数量:2个 CPU线程数:32个 内存:128GB 磁盘:48TB 使用测试机群上的同一个队列,使用整个集群的资源,所有的查询都是无并发的。 Hive使用官方的h转载 2017-08-22 17:13:45 · 1417 阅读 · 0 评论 -
Spark 踩坑记录
Encoders.bean(Person.class) 调用报异常 异常信息Exception in thread "main" java.lang.UnsupportedOperationException: Cannot infer type for class personal.leo.spark.Person because it is not bean-compliant 原因: Bean原创 2017-07-19 17:01:27 · 1642 阅读 · 1 评论 -
使用 Ambari 安装 Hadoop 集群
一.环境: 1.Ubuntu 14.04 2.Ambari 2.5.0 3.JDK1.8 二:说明: 1.使用 root 用户 2.如果仅用作 demo 使用,不建议单机开多台 vm,除非你的机器内存大于32G,使用单台vm执行以下步骤即可. 3.如果有多台机器可做集群,则给不同的机器设置不同的域名即可,如 [ ubuntu0.com, ubuntu1.c原创 2017-06-29 18:38:42 · 3599 阅读 · 2 评论 -
数据挖掘学习笔记:分类、统计学习
转自:http://www.raychase.net/1951 ICDM(国际数据挖掘大会)2006年从18种提名的数据挖掘算法中投票选出了十大算法。这18中提名数据挖掘算法分属10大数据挖掘主题,蓝色部分即为最终选出的十大算法: 分类(Classification) C4.5 CART K Nearest Neighbours Naive Bayes 统计学转载 2016-12-29 09:23:26 · 575 阅读 · 0 评论 -
轻松看懂机器学习十大常用算法
通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)。以后有机会再对单个算法做深入地解析。 今天的算法如下: 决策树 随机森林算法 逻辑回归 SVM 朴素贝叶斯 K最近邻算法 K均值算法 Adaboo转载 2016-11-23 00:25:30 · 1038 阅读 · 0 评论 -
如何用Tensorflow开发一个简单的语音识别器
在这个视频中,我们将使用Tensorflow机器学习库,用20行Python代码创建一个超简单的语音识别器。 一起回顾下语音识别研究的历史,然后解释如何使用深度学习建立自己的语音识别系统。 视频连接:http://weibo.com/p/2304444948c16e85c39a07240b193cd5509574 项目源码:https://github.com/llSourcell/tenso转载 2016-12-12 09:23:17 · 19104 阅读 · 0 评论 -
如何系统地学习数据挖掘?
知乎的回答: https://www.zhihu.com/question/20751219转载 2016-10-24 14:24:21 · 1567 阅读 · 0 评论 -
【案例分享】唯品会海量实时OLAP分析技术升级之路
【文章来源:DBAplus社群。本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成】 讲师介绍 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。 分享大纲: 海量数据转载 2017-10-14 15:52:08 · 814 阅读 · 2 评论