博客专栏  >  云计算/大数据   >  大数据学习—Deep in learning

大数据学习—Deep in learning

博主近段时间在潜心学习大数据,与此同时,特开专栏进行总结大数据学习成果。

关注
0 已关注
23篇博文
  • Spark MLlib机器学习之朴素贝叶斯小试牛刀

    Spark MLlib机器学习之朴素贝叶斯小试牛刀废话不多说,直接上代码,以下代码均基于Scala实现。0. 机器学习工具类 BaseModelUtil.scalapackage com.jangz....

    3天前 21:50
    41
  • MapJoin和ReduceJoin区别及优化

    MapJoin和ReduceJoin区别Map-side Join(Broadcast join)思想: 小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。 两份数据中,如果有一...

    2017-11-18 11:17
    171
  • 用户日志分析系统实战(六)

    用户日志分析系统实战(六)(to be done)

    2017-11-18 09:56
    141
  • 用户日志分析系统实战(五)

    用户日志分析系统实战(五)(to be done)

    2017-11-18 09:55
    144
  • 用户日志分析系统实战(四)

    用户日志分析系统实战(四)(to be done)

    2017-11-17 22:48
    128
  • 用户日志分析系统实战(三)

    用户日志分析系统实战(三)1 资源管理(YARN)1.1 YARN产生背景 运维成本 “一个框架一个集群”的模式会增加运维成本,而共享模式通常需要少数管理员即可完成多个框架的统一管理。 数据共享。共...

    2017-11-17 08:15
    44
  • 用户日志分析系统实战(二)

    用户日志分析系统实战(二)1 日志收集1.1 常见数据来源 非结构化数据 机器产生的数据 用户访问日志 用户购买日志 结构化数据 RDBMS:MySQL、Oracle等 全量导入 增量导入 1....

    2017-11-15 23:07
    34
  • 用户日志分析系统实战(一)

    用户日志分析系统实战(一)接下来的博客是一个连续的部分,主要分为: 1. 用户日志分析系统实战(一),讲解背景及架构设计 2. 用户日志分析系统实战(二),日志收集与文件存储及其优化 3. 用户...

    2017-11-14 22:21
    33
  • 从RDD角度来剖析Spark内部原理

    从RDD角度来剖析Spark内部原理 1 Spark的核心 — RDD? 1.1 RDD的5个属性 1.2 RDD的特性 1.3 What's RDD? 在物理上,RDD对象实质上是一个 元...

    2017-11-11 09:52
    60
  • 从Spark组件来剖析Spark的执行流程

    从Spark组件来剖析Spark的执行流程 0 从对比的视角来看Spark 0.1 Hadoop VS Spark 0.2 Spark VS Flink Flink 作为后起之秀,发展...

    2017-11-03 23:09
    32
  • MapReduce作业执行流程

    MapReduce作业执行流程 0 准备阶段 0.1 回顾hadoop配置文件mapred-site.xml mapreduce.framework.name yarn ...

    2017-11-10 16:50
    124
  • Zookeeper问题汇总

    Zookeeper问题汇总 1 Zookeeper集群启动报错 启动客户端一直报错: 2016-05-06 01:58:23,980 [myid:] - INFO [main-Send...

    2017-11-09 13:55
    69
  • Spark错误汇总

    Spark错误汇总积累 1、spark带的scala库比较旧(2.11.8), 系统安装的安装scala比较新(2.12.2)引起的问题. zhouhh@/Users/zhouhh/test/spar...

    2017-10-15 21:39
    193
  • Spark Streaming中,增大任务并发度的方法有哪些?

    Spark Streaming中,增大任务并发度的方法有哪些? 0 准备阶段 Q: 在Spark集群中,集群的节点个数、RDD分区个数、CPU内核个数三者与并行度的关系是什么? 我们先梳理一下Sp...

    2017-11-09 09:44
    252
  • Shuffle解密

    Shuffle解密 0. 准备阶段 Map的输出会经过一个名为shuffle的过程,交给Reduce处理。在MapReduce流程中,为了让Reduce可以并行处理Map结果,必须对Map的输...

    2017-11-08 07:56
    120
  • hadoop执行mapreduce过程reduce不执行原因

    hadoop执行mapreduce过程reduce不执行原因 1.如果你的map过程中没有context.write()是不执行reduce过程的; 2.如果你的map过程中conte...

    2017-09-30 19:30
    60
  • Hive数据去重、多变一与一变多等实现

    Hive数据去重、多变一与一变多等实现 0. 数据准备 0.1 数据文件 本机的/usr/local/share/applications/hive/data/目录下创建 employees.tx...

    2017-09-29 23:49
    87
  • Hadoop远程调试

    Hadoop远程调试 Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 J...

    2017-09-25 18:51
    79
  • MapReduce实现分组排序

    MapReduce实现分组排序 以某次竞赛为例,分别进行如果实现: 取每组中男生前三名成绩和女生前三名成绩按照年龄分组降序输出所有人的成绩等价的SQL 0. 预备知识 0.1 基于MapR...

    2017-09-22 23:03
    123
  • Flume读取日志数据并写入到Kafka,ConsoleConsumer进行实时消费

    最近大数据学习使用了Flume、Kafka等,今天就实现一下Flume实时读取日志数据并写入到Kafka中,同时,让Kafka的ConsoleConsumer对日志数据进行消费。 1、Flu...

    2017-09-14 00:03
    393
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部