大数据
文章平均质量分 74
闹闹的BaBa
这个作者很懒,什么都没留下…
展开
-
大数据平台搭建(一):虚拟机环境配置
前言 最近看了些hadoop相关的资料,然后想自己从零开始搭建一个大数据平台。大数据平台架构 1.概念性的东西还是不想多啰嗦,先上一张网上找的平台架构图,上图的目的是为了大家对整个平台架构有个宏观的认识,这个很重要,如果盲目的零碎的去研究效果很差。 2.目标当然是整合图中所有框架和组件,但是时间可能有限,机器也有限(本机搭建)。所以,我...原创 2018-04-10 17:25:22 · 7305 阅读 · 1 评论 -
大数据平台搭建(二):hadoop HA 集群搭建
前言 本章搭建zookeeper集群和hadoop集群1.hadoop版本的选择 1.目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hor...原创 2018-04-11 17:52:21 · 2682 阅读 · 1 评论 -
大数据平台搭建(三):hive 介绍和安装配置
前言 集群我们已经弄好了,本章开始搭建hive。1.hive介绍 1.Hive是什么? 官方解释:Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将...原创 2018-04-13 17:18:38 · 2010 阅读 · 0 评论 -
数据可视化 三步走(一):数据采集与存储,利用python爬虫框架scrapy爬取网络数据并存储
前言 最近在研究python爬虫,突然想写博客了,那就写点东西吧。给自己定个小目标,做一个完整的简单的数据可视化的小项目,把整个相关技术链串联起来,目的就是为了能够对这块有个系统的认识,具体设计思路如下:1. 利用python爬虫框架scrapy爬取网络数据并存储到mysql中;2. 利用springboot mybatis 作为web后台服务;3. 利用thymeleaf原创 2018-02-06 16:39:48 · 6788 阅读 · 2 评论 -
数据可视化 三步走(二):springboot整合mybatis 搭建Java Web
前言 本章节完成第2点:利用springboot + mybatis 作为web后台服务。1.环境依赖 1.Win7 + Intellij IDEA 15.0.2 + JDK82.创建springboot项目    1.new project   &nb原创 2018-02-07 16:16:27 · 4034 阅读 · 9 评论 -
数据可视化 三步走(三):thymeleaf + echarts 完成数据可视化
前言 春节小长假休的比较舒服,第一天上班,继续年前未完成的内容。 本章节完成最后一点:利用thymeleaf模板引擎 和echarts完成数据可视化。为什么使用thymeleaf和echarts?     1.thymeleaf是基于html的,可以先进行原型设计,即设计静态的html,然后嵌入thyme...原创 2018-02-26 17:29:52 · 12366 阅读 · 15 评论 -
zookeeper的应用和原理详解
场景一有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。 &nb...转载 2018-09-02 15:00:24 · 174 阅读 · 0 评论 -
impala日期函数全集
hive 日期函数增加月份add_months(timestamp date, int months)add_months(timestamp date, bigint months)Return type: timestampusage:add_months(now(),1)增加日期adddate(timestamp startdate, int days), adddate(t...原创 2019-05-28 17:56:44 · 10809 阅读 · 1 评论