hadoop
文章平均质量分 91
Mr_哲
get ready
展开
-
HBase优化指南
在Hbase2x 增删改查 scala版中,有介绍HBase1.2.x增删改查的api文档,但仅仅了解还是不够,在不同的读写业务场景中,必须做出适当优化,才能满足业务需求。本文首先讲解HBase缓存机制,并针对服务端(server)和客户端(client)进行调优说明。一、HBase缓存机制HBase由master和regionserver组成,master用来管理regionserver...原创 2018-11-06 20:13:27 · 838 阅读 · 0 评论 -
spark读写hbase性能对比
一、spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下:<!-- https://mvnrepository.com/artifact/org.apache...原创 2018-08-29 19:29:01 · 8529 阅读 · 2 评论 -
spark ml 特征工程实现
package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...原创 2018-08-22 11:56:21 · 1911 阅读 · 0 评论 -
SparkStreaming 2.3.1 API使用介绍
一、介绍Spark Streaming是核心SparkAPI的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理;可以从许多来源(如Kafka,Flume,Kinesis或TCP端口)中获取数据,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理;最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。。二、数据源sparkstreami...原创 2018-08-14 16:43:10 · 1617 阅读 · 0 评论 -
sparkSQL API使用总结
一、SparkSessionSpark SQL所有功能入口点是SparkSession,创建SparkSession,仅使用SparkSession.builder()就可以:import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL basic ex...原创 2018-08-01 09:24:05 · 3594 阅读 · 0 评论 -
ClickHouse安装和使用技巧
一、简介ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:列式存储数据库,数据压缩 关系型、支持SQL 分布式并行计算,把单机性能压榨到极限 高可用 数据量级在...原创 2018-08-09 14:56:34 · 15945 阅读 · 2 评论 -
Hive 3.0.0安装与配置
机器环境是:ubuntu 18.04 LTS、hadoop 3.0.3、hive 3.0.0和mysql 8.0.11。一、安装JDK和hadoop/mysql1. 安装hadoop2. 安装mysql(1) 安装ubuntu18.04不能直接用:sudo apt-get install mysql-serversudo apt-get install mysql-c...原创 2018-07-23 09:26:05 · 5244 阅读 · 1 评论 -
spark RDD算子总结
在spark数据处理中,一些算子使用频道很高。为此,总结在工作中常用的一些算子,并结合数据进行说明。一、 二次排序二次排序属于日志处理中,经常遇到,而使用scala可以极大简化代码。数据secondarysortExample.txt数据如下;2,21,314,41,112,21,314,41,13,8class SecondarySort(val...原创 2018-07-30 13:39:36 · 1248 阅读 · 0 评论 -
spark 2.3.1安装
机器环境:scala 2.11.12、hadoop 3.0.0、spark 2.3.1一、安装scala 2.11.12tar -zxf scala-2.11.12.tgz -C /opt/modules/sudo vi /etc/profile# SCALA_HOMEexport SCALA_HOME=/opt/modules/scala-2.11.12export P...原创 2018-07-30 13:18:36 · 1469 阅读 · 0 评论 -
ubuntu 18.04LTS hadoop 3.0.3安装
ubuntu18.04 LTS安装后,更新hadoop系列安装。这次针对hadoop,系统和安装环境如下:ubuntu18.04 LTS和hadoop3.0.3、jdk1.8.0_172。一、安装sshsudo apt-get install ssh openssh-server二、使用ssh无密登陆ssh-keygen -t rsacd ~/.sshcat id...原创 2018-07-20 18:17:34 · 2555 阅读 · 0 评论 -
kafka 1.1.0安装
机器环境:scala 2.11.12、kafka-2.11-1.1.0一、安装1. kafka_2.11-1.1.0解压tar -zxf kafka_2.11-1.1.0.tgz -C /opt/modules/2. 修改配置server.propertiesbroker.id=0port=9092host.name=leelog.dirs=/opt/...原创 2018-07-26 09:12:43 · 1250 阅读 · 0 评论 -
hbase 2.0.1安装
机器环境是:zookeeper 3.4.12 和hbase 2.0.1。一、 zookeeper安装1. 解压tar zxf zookeeper-3.4.12.tar.gz -C /opt/modules/2. 修改配置cp conf/zoo_sample.cfg zoo.cfgmkdir zkDatavi zoo.cfgdataDir=/opt/modules...原创 2018-07-26 09:10:43 · 1076 阅读 · 0 评论 -
DBeaver 5.3.1安装和使用
目录一、下载和安装二、连接1. mysql连接2. hive连接3. clickhouse连接4. elasticsearch连接5. neo4j连接6. phoenix连接6.1 hbase与phoenix整合6.2 启动6.3 测试6.4 连接DBeaver是基于jdbc驱动的数据管理工具,支持丰富的数据库,如mysql、hive、click...原创 2019-01-02 22:14:39 · 6725 阅读 · 0 评论