博客专栏  >  云计算/大数据   >  从零学习数据挖掘

从零学习数据挖掘

记录从JavaWeb转到数据挖掘过程中走的路挖的坑

关注
2 已关注
9篇博文
  • 使用Flume+Kafka+SparkStreaming进行实时日志分析

    每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思...

    2017-05-24 15:33
    6793
  • hadoop、zookeeper、hbase、spark集群环境搭建

    本文详细讲解如何搭建hadoop、zookeeper、hbase和spark的集群环境,这里我是在本地虚拟机上搭建的集群,但是和实际环境的配置差不多。我会从零开始搭建并且尽量写得详细,所以还会讲到很多...

    2016-09-13 09:44
    5067
  • Hadoop双namenode配置搭建(HA)

    配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。Hadoop HA的搭建是基于Zookeeper的,关于Zookeep...

    2017-02-14 17:31
    2821
  • Hive快速入门

    主要内容 Hive概述 Hive安装配置 数据类型和文件格式 HQL常用操作 1. Hive概述1.1 为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据...

    2017-03-11 15:50
    971
  • 数据仓库的架构与设计

    公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓...

    2017-04-01 17:52
    4223
  • Learning Spark——使用spark-shell运行Word Count

    在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器...

    2017-04-27 11:20
    3172
  • Learning Spark——使用Intellij Idea开发基于Maven的Spark程序

    本文主要讲解如何使用Idea开发Spark程序,使用Maven作为依赖管理,当然也可以使用SBT,但是由于一直写Java程序习惯用Maven了,所以这里使用Maven。1、下载安装Jdk、Scala、...

    2017-04-20 18:08
    4914
  • Learning Spark——RDD常用操作

    本文内容主要包括: 基本转换操作 键值对转换操作 行动操作 RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。为什么会分为两种操作,这两种...

    2017-04-27 17:33
    1462
  • Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

    执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql...

    2017-05-20 16:12
    1564

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部