大数据
落叶1210
这个作者很懒,什么都没留下…
展开
-
阿里云ECS服务器Centos7.6环境下部署CDH6.1.大数据集群
阿里云购买同一地区下的三台服务器,操作系统为Centos7.6,内网地址分别是172.17.58.37 ,172.17.58.38, 172.17.58.39,对应的节点分别为node1,node2,node3,node1为主机。部署CDH6.1.0,详细部署过程如下:一、基础环境配置(全部节点)1、修改主机名#hostnamectl set-hostname node1#vi /...原创 2019-05-10 23:43:37 · 1787 阅读 · 1 评论 -
sparkstreaming实现hdfs目录的监控,并实时写入hbase
部署环境参考https://blog.csdn.net/luoye4321/article/details/99745877代码如下:import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Putimport org.apache.hadoop.hbase.io.Im...原创 2019-08-19 18:35:13 · 768 阅读 · 0 评论 -
scala实现hbase批量写入
一、编程环境:1、JDK1.82、scala2.11.73、hadoop3.0.0、hbase2.1.0、spark2.4.0操作系统:centos7.6,编译器使用idea2019二、实现步骤:1、添加hbase的jar包因为我这里使用使用的是cdh发行版本,hbase的jar包位置为:/opt/cloudera/parcels/CDH/lib/hbase/lib/...原创 2019-08-19 18:29:28 · 2100 阅读 · 1 评论 -
pyspark实战(六)pyspark+happybase批量写入hbase操作
pyspark和happyhase操作hbase需要提前部署和安装pyspark和happyhbase的python包,具体的安装过程可看靠前面章节,这里不再赘述。1、引入相关包from pyspark import SparkContext,SparkConf #pyspark包,v2.2.0import happybase #ha...原创 2019-07-16 22:17:17 · 3292 阅读 · 0 评论 -
Pyspark实战(三)wordcount算子分析
Pyspark的本质还是调用scala的jar包,我们以上篇文章wordcount为例,其中一段代码为:rdd.flatMap(lambda x:x.split( )).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).foreach(lambda x:print(x))其中:flatMap,map为转换算子。reduceByKey,fore...原创 2019-06-28 01:01:23 · 578 阅读 · 0 评论 -
Pyspark实战(二)wordcount词频统计
E盘根目录创建test.txt输入测试内容如下:this is a testthis very goodyou is very goodwhat are you完整代码如下:from pyspark import SparkContext,SparkConfdef wordcount(): txtfile=r'E:\test.txt' c...原创 2019-06-27 23:40:33 · 1671 阅读 · 0 评论 -
Pyspark实战(一)环境部署
这里假设Python环境已经部署完成,相关版本如下:spark2.2.0,部署过程参考https://blog.csdn.net/luoye4321/article/details/90552674。 python3.7,部署过程参考https://www.runoob.com/python/python-install.html JavaJDK1.8以上版本 下载pyspark包使用...原创 2019-06-27 22:59:59 · 1839 阅读 · 0 评论 -
Pyspark实战(五)pyspark+happybase操作hbase
Hbase环境参考上一章节安装happybasePip install happybase创建test.py,代码如下:from pyspark.sql import SparkSessionimport happybasedef hpbase(): spark = SparkSession.builder.appName('SparkHBaseRDD').mast...原创 2019-07-01 23:29:26 · 1045 阅读 · 0 评论 -
Pyspark实战(四)pyspark操作hbase
环境配置:Spark启动环境中添加hbase的jar包以及spark-examples的jar包。1、下载spark-examples jar包,地址https://mvnrepository.com/artifact/org.apache.spark/spark-examples_2.11/1.6.0-typesafe-0012、将下载的spark-examples包放在hbase的...原创 2019-07-01 23:09:49 · 1963 阅读 · 3 评论 -
windows下hbase部署和使用
这里假定hadoop已经部署完成(详细步骤可参考上一篇文章),继续进行hbase的安装,过程如下:1、下载Hbase2.0.5,下载地址:http://archive.apache.org/dist/hbase/,这里注意hbase和hadoop的版本,hadoop2.7.x以上,hbase2.0以上。2、解压并添加环境变量,如下:增加系统变量:HBASE_HOME=E:\geot...原创 2019-05-25 22:53:55 · 5166 阅读 · 4 评论 -
windows下hadoop的部署和使用
本教程在windows10环境下安装配置hadoop+hbase+spark。一、下载压缩包:1、JavaJDK,1.8以上。2、Hadoop2.8.3,下载地址:http://archive.apache.org/dist/hadoop/core/Hadoop2.8.3windows环境下的第三方包:winutils,https://github.com/stevelough...原创 2019-05-25 22:52:26 · 10791 阅读 · 6 评论 -
hbase出现org.apache.hadoop.hbase.PleaseHoldException: Master is initializing错误解决
使用hbase创建namespace和table时提示该错误,完整的错误日志如下:按照网上的解决思路:1、设置主机之间的NTP时间同步。2、修改hbase-site.xml配置文件<property><name>hbase.rootdir</name><value>hdfs://node1:...原创 2019-05-16 21:58:43 · 32400 阅读 · 14 评论 -
scala通过BulkLoad实现hbase的批量入库
部署环境参考其他章节。完整代码如下:import java.util.UUIDimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}import org.apache.hadoop.hbase.client.{Connectio...原创 2019-08-21 15:02:23 · 687 阅读 · 1 评论