博客专栏  >  云计算/大数据   >  spark/hadoop学习

spark/hadoop学习

专注大数据处理框架的学习

关注
12 已关注
36篇博文
  • Spark-K-Means算法

    机器学习算法大体分为三类:监督学习(supervised learning)、无监督学习(unsupervised learning)和半监督学习(semi-supervised learning)。...

    2016-06-20 23:28
    1357
  • Spark-zeppelin-大数据可视化分析

    官网介绍 Multi-purpose Notebook The Notebook is the place for all your needs Data IngestionData Disc...

    2016-05-26 17:01
    5354
  • Kylin介绍

    Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询...

    2016-05-26 16:51
    966
  • Kylin Cube Build and Job Monitoring

    Kylin Cube Build and Job Monitoring Cube Build First of all, make sure that you have authority of ...

    2016-05-26 16:37
    623
  • Kylin - 分析数据

    I. Create a Project Go to Query page in top menu bar, then click Manage Projects. Click t...

    2016-05-26 16:34
    2242
  • 安装Kylin

    Environment Kylin requires a properly setup Hadoop environment to run. Following are the minimal re...

    2016-05-26 16:35
    950
  • kylin-BI工具-tableau9

    Tableau 9 Tableau 9.x has been released a while, there are many users are asking about support this...

    2016-05-26 16:42
    1796
  • Kylin-web上的数据分析

    Kylin Web Interface Supported Browsers Windows: Google Chrome, FireFox Mac: Google Chrome, Fire...

    2016-05-26 16:40
    1348
  • Kylin-百度地图的实践

    百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。 对于Apache Kylin在实...

    2016-05-26 16:44
    918
  • Kylin-实践OLAP

    OLAP的历史与基本概念   OLAP全称为在线联机分析应用,是一种对于多维数据分析查询的解决方案。典型的OLAP应用场景包括销售、市场、管理等商务报表,预算决算,经济报表等等。 最早的OLAP...

    2016-05-26 16:45
    4653
  • Kylin-基本知识

    CUBE Table - This is definition of hive tables as source of cubes, which must be synced before ...

    2016-05-26 16:46
    3797
  • Spark-构建基于Spark的推荐引擎

    推荐引擎推荐引擎就是是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过 程。从这点上来说,它同样也做预测的搜索引擎互补。但与搜索引擎不同,推荐引擎试图向人 们呈现的相关内容并不一定就是人们所...

    2016-05-18 23:14
    2685
  • Spark-ML-数据获取/处理/准备

    获取公开数据集UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类 和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。 Am...

    2016-05-18 23:04
    3204
  • Spark-ML-基于云平台和用户日志的推荐系统

    架构:数据收集:spark stareming从Azure Queue收集数据,通过自定义的spark stareming receiver,源源不断的消费流式数据。 数据处理: spark sta...

    2016-05-16 23:48
    4365
  • Spark-再接着上次的Lamda架构

    日志分析单机日志分析,适用于小数据量的。(最大10G),awk/grep/sort/join等都是日志分析的利器。 例子: 1、shell得到Nginx日志中访问量最高的前十个IPcat acce...

    2016-05-16 21:42
    3043
  • Spark-项目中分析日志的核心代码

    代码LogRecord 类:case class LogRecord ( clientIpAddress: String, rfc1413ClientIdentity: S...

    2016-05-15 18:59
    1895
  • Spark-再次分析Apache访问日志

    分析日志的包自己编译下:sbt compile sbt test sbt package ApacheLogParser.jar对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spar...

    2016-05-15 01:11
    3692
  • Spark-Spark Streaming-广告点击的在线黑名单过滤

    任务广告点击的在线黑名单过滤 使用 nc -lk 9999 在数据发送端口输入若干数据,比如:1375864674543 Tom 1375864674553 Spy 1375864674571...

    2016-05-11 12:29
    1709
  • Spark-Caching /Checkpointing

    功能:cacheing和checkpointing这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。区别:Caching cache 机制保证了...

    2016-05-11 11:37
    496
  • Spark-数据分析可视化Zeppelin

    官网介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持s...

    2016-04-26 12:21
    1632

java研究者
10673251
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部