
hadoop
D调的Stanley
这个作者很懒,什么都没留下…
展开
-
hive拉链表详解
新增及变化数据如下图所示,2020-01-01为初始化数据,在2020-01-02的时候jacky约增加了500,数据库里又新增了lucy这个新用户。对于数据仓库来说jacky就是变化的数据,lucy就是新增的数据。如何将新增以及变化的数据导入数据仓库如果在不占用过多空间的情况下,又能在保留历史数据的同时,体现最新的状态,拉链表是一个不错的选择什么是拉链表如下图所示,前一日全量数据和当日新增以及变化的数据合并形成一张新的全量表,就像是拉链的形状。如何实现如下图所示,u原创 2020-05-22 16:55:13 · 2258 阅读 · 2 评论 -
CDH配置Kerberos,通过windows浏览器访问管理页面
CDH在配置kerberos权限后,通过windows浏览器访问namenode,yarn等页面会被拒绝访问,造成这种现象的原因是因为在你访问的windows系统中没有配置kerberos客户端,导致没有权限访问。在这里我们需要安装 mit kerberos,下载地址如下:http://web.mit.edu/kerberos/dist/index.html下载安装完成后,我们配置C:\P...原创 2019-09-09 14:47:15 · 1628 阅读 · 1 评论 -
spark 实现共同好友查找
共同好友:求大量集合的两两交集目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:<person><,><friend1>< ><friend2>< >...<friendN>100,200 300 4原创 2018-05-20 11:49:05 · 1191 阅读 · 0 评论 -
spark 处理网络日志 查询pv uv实例
这里我们先理解一下spark处理数据的流程,由于spark 有standalone,local,yarn等多种模式,每种模式都有不同之处,但是总体流程都是一样的,大致就是客户端向集群管理者提交作业,生成有向无环图,图中的内容包括分成几个stage,每个stage有几个task,每个task分别由哪个executor来执行,接下来的工作就是整个spark集群按照有向无环图的布置来进行,并得出结果。下...原创 2018-04-25 22:38:35 · 1176 阅读 · 0 评论 -
spark screaming 模拟实战项目实例
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url...原创 2018-05-03 23:15:43 · 2012 阅读 · 0 评论 -
HBASE 使用java api 实现增删改查实例
我们使用windows 本地myeclipse测试程序,具体搭建教程请看https://blog.csdn.net/weixin_41407399/article/details/79763235首先创建maven 项目,并修改pom.xml,导入hbase 第三方jar包,首次会自动下载<dependency> <groupId>org.apache.hba...原创 2018-04-14 20:30:25 · 4922 阅读 · 0 评论 -
hadoop 配置hive 详细流程
解压hive压缩包将hive目录下conf文件夹下 hive-env.sh.template 拷贝成 hive-env.sh,并增加四行内容在hive-env.sh增加四行内容exportHADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6exportHIVE_CONF_DIR=/opt/modules/hive-0.13.1-cdh5.3.6/confex...原创 2018-03-31 16:25:14 · 2475 阅读 · 0 评论 -
hadoop源码包编译验证 snappy 详细流程
下载安装依赖包yum -y install lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool openssl-devel fuse-devel cmake使用root用户安装protobuf ,进入protobuf解压路径./configuremake && make install使用root用户安装sna...原创 2018-04-08 13:13:11 · 634 阅读 · 0 评论 -
myeclipse 本地远程连接hadoop 并创建maven项目
下载hadoop-eclipse-plugin-2.5.2.jar的jar包放到myeclipse 的plugin文件夹下 ,不同hadoop对应不同版本,这个jar包也可以自己编译解压hadoop-2.5.0 tar.gz压缩包到windows本地,winrar可能解压不开,可以使用好压或者360压缩软件解压打开myeclipse ,点开工具栏window-preferences 搜索hadoo...原创 2018-03-30 21:19:17 · 1156 阅读 · 0 评论 -
hadoop完全分布式搭建HA(高可用)
首先创建5台虚拟机(最少三台),并且做好部署规划ip地址 主机名 安装软件 进程 192.168.xx.120 master jdk,hadoop,zookeeper namenode,ZKFC,Resourcemanager 192.168.xx.121 master2 jdk,hadoop,zookeeper namenode,ZKFC,Resourcemanager 192...原创 2018-03-25 16:25:26 · 14896 阅读 · 5 评论 -
xshell 远程登录linux配置
首先安装一个远程连接工具,我这里使用的是xshell5修改windows本地映射进入C:\Windows\System32\drivers\etc,将hosts文件复制到桌面,在原文件夹下无法修改,使用记事本打开在最下面添加映射,映射地址与linux ip地址一致,ip地址和映射名中间隔一个空格,修改完将hosts文件覆盖到原文件夹打开xshell,新建会话,名称随意填写,主机填写刚刚设置的映射名...原创 2018-03-23 18:09:12 · 1696 阅读 · 0 评论