IntelliJ IDEA上scala插件安装、wordCount词频分析案例(可读性高)

Scala插件安装 configure –>pluin –>install JetBrains plugin—>搜索Scala 选中scala后,点击右侧窗口的install,等待安装,安装完成后restar...

2018-09-08 17:07:29

阅读数 70

评论数 0

Scala的安装配置以及简单WordCount词频分析的实现

一、Scala的下载和安装 1、下载 Scala官网地址 点击download,显示是最新版本的下载,但最新的版本可能存在兼容问题,这里我选择下载其他版本(往下多划一点会看到) 点击下载其他版本,我选择下载2.11.8版本(滑到末尾),下载msi和tgz版本 **:不管安装在...

2018-09-08 16:46:53

阅读数 54

评论数 0

Hbase的表结构中rowkey的设计---避免热点问题

热点问题   hbase 中的行是以 rowkey 的字典序排序的,这种设计优化了scan 操作,可以将相关的 行 以及会被一起读取的行 存取在临近位置,便于 scan 。 然而,糟糕的 rowkey 设计是 热点 的源头。 热点发生在大量的客户端直接访问集群的一个或极少数节点。访问可以是...

2018-09-06 15:19:49

阅读数 302

评论数 0

Linux多个服务器之间的免密登录、时间同步问题以及防火墙的操作

一、免密登录 远程登录进行操作指令的时候都要输入密码 安全验证机制有两种 1)用户名和密码 2)公钥和私钥机制 请求方需要事先创建一对密钥(公钥,私钥; 私钥自己持有,公钥交给目标机器) 实现步骤: 在A机器(hadoop01)上生成密钥对: ...

2018-09-06 15:08:09

阅读数 65

评论数 0

Hbase原理详解

Hbase简介 HBASE是一个可以提供数据的实时随机读写的数据库 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库) Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固...

2018-09-06 11:34:49

阅读数 100

评论数 0

基于Hbase的MapReduce框架案例(一)--词频分析Wordcount

建表以及存数据 public class InitTable { public static void main(String[] args) throws Exception { Configuration conf = HBaseConfiguration.cre...

2018-09-05 22:20:06

阅读数 167

评论数 0

Hbase的命令行客户端操作、Java客户端操作、过滤器

Hbase的命令行客户端操作(shell操作) 描述表:describe “t_user” 判断表是否存在:exists “t_user” 向表中添加数据:put “t_user”,”rk001”,”basic_info:name”,”huihui” put...

2018-09-05 22:12:12

阅读数 180

评论数 0

Hbase特性、工作机制以及安装配置

Hbase是一种分布式nosql数据库系统,能实时操作数据:增删改查 一、hbase的特性 1、hbase数据的最终持久化存储是基于hsfs文件系统,存储容量几乎无限,可以随时在线扩容 2、hbase的数据增删改查功能模块是分布式系统 3、nosql数据库,表结构 ...

2018-09-05 21:53:36

阅读数 177

评论数 0

基于zookeeper分布式协调的动态上下线感知案例

一、动态上下线感知流程示意图 二、详细解析   当客户端很多时,服务器应付不过来,则需要增加服务器来提高运行效率,这时就可以引入zookeeper 1、当服务器一上线(启动)时,就在zookeeper上注册一个节点/servers/server0001; 2、客户端请求服...

2018-09-05 19:57:10

阅读数 82

评论数 0

zookeeper的主要功能以及zookeeper客户端操作

一、zookeeper的主要功能 zookeeper是大数据集群中的一个基础组件,主要有两个功能: 1、为客户端管理少量数据 2、为客户端监听指定数据节点的状态,并在数据节点发生变化时,通知客户端。 二、zookeeper命令行客户端操作(shell) 1、启动zookeeper命令...

2018-09-05 19:21:20

阅读数 148

评论数 0

zookeeper自动批量启动脚本

zookeeper使用时需要一台台的启动服务器上的zookeeper,使用hbase时也需要先启动zookeeper,这样操作很麻烦,可以使用一下脚本来实现批量启动zookeeper: 编写一个脚本:vi zkmanage.sh #!/bin/bash #将所有服务器放入循环列表,以便启动 f...

2018-09-05 14:17:49

阅读数 133

评论数 0

茄子快传数据分析(二)----活跃用户和新增用户分析

建库 .create database db_app; 建表 1、元数据表,用来加载清洗好的数据 create table ods_app_log( cid_sn string, mobile_data_type string, ...

2018-09-03 19:00:51

阅读数 245

评论数 0

茄子快传数据分析(一)----数据清理

茄子快传原理 流程图: 数据 “events”: “1473367236143\u00010\u0001connectByQRCode\u0001\u00010\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u0001\u00...

2018-09-03 18:41:44

阅读数 145

评论数 0

zookeeper安装教程

一、上传文件,解压缩 zookeeper安装文件:链接:https://pan.baidu.com/s/1GeXS5Ok8Vww_WIM-qnDjTQ 密码:1rwr 解压缩:tar -zxvf zookeeper-3.4.6.tar.gz -C /usr/local 二、修...

2018-09-03 11:03:31

阅读数 69

评论数 0

JDBC驱动访问hive中的数据库信息

在pom.xml中导入依赖 <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-jdbc --> <dependency> ...

2018-09-01 15:37:06

阅读数 176

评论数 0

Hive自定义函数UDF--求三个数据最大值

数据及需求 有如下数据: a,100,50,120 b,220,150,20 c,220,450,220 3个字段分别表示: 用户id,基本工资,业绩提成,股权收益 需要查询出每个人的三类收益中最高的是哪一种收益 Java部分 1.新建一个maven工程 2.在pom.x...

2018-08-31 21:18:23

阅读数 385

评论数 0

使用sqoop进行hive与传统数据库之间的导入、导出数据

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中...

2018-08-31 20:25:35

阅读数 153

评论数 0

Hive脚本化运行

大量的hive查询任务,如果用交互式shell来进行输入的话,显然效率及其低下,因此,生产中更多的是使用脚本化运行机制: 该机制的核心点是:hive可以用一次性命令的方式来执行给定的hql语句 执行简单hql语句 直接在终端输入 hive -e "hql语句;&...

2018-08-31 19:27:47

阅读数 54

评论数 0

Hql查询案例三 : 连续销售记录查询案例

数据 店铺 销售日期 销售额 A,2017-10-11,300 A,2017-10-12,200 B,2017-10-11,400 B,2017-10-12,200 A,2017-10-13,100 A,2017-10-15,100 C,2017-10-11,350 C,2017...

2018-08-31 15:08:53

阅读数 81

评论数 0

Hql查询案例一 : 级联累计报表查询案例

数据 有如下数据: 用户,日期,月销售额 A,2015-01-08,5 A,2015-01-11,15 B,2015-01-12,5 A,2015-01-12,8 B,2015-01-13,25 A,2015-01-13,5 C,2015-01-09,10 C,2015-01-...

2018-08-31 14:51:44

阅读数 41

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭