大数据开发
Round_Yuan
世界很无聊,你也很无聊。。。。。。
展开
-
Hbase MapReduce 执行示例代码报错
问题公司同事在学习Hbase 视频中有一段是Hbase 使用MapReduce 的官方实例使用 RowCounter 计算表的行数。执行命令:/usr/bdapp/hadoop-2.7.7/bin/yarn jar /usr/bdapp/hbase-2.1.7/lib/hbase-server-2.1.7.jar RowCounter test:user抛出错误如下:Exceptio...原创 2020-03-22 20:51:44 · 738 阅读 · 0 评论 -
SparkStreaming 数据实时处理
SparkStreaming1、创建一个SparkConf()2、新建SparkContext3、新建StreamingContext(SparkContext,time间隔)4、 |->socketTextStream(“ip”,port)5、对Dstream进行操作6、启动Sparkstreaming程序.start7、等待优雅的退出8、ssc.awaitTermin...原创 2018-10-25 09:34:56 · 533 阅读 · 0 评论 -
转Parquet文件
介绍:Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.(Apache Par...原创 2018-10-25 09:28:36 · 1303 阅读 · 0 评论 -
SparkSQL自定义函数(实现几何平均数)
SparkSQL-自定义聚合函数 (实现几何平均数)->创建SparkSessionparkSession->创建自定义函数 -1、继承UserDefinedAggregateFunction -2、重写下面的方法 inputSchema -输入数据的类型 bufferSchema -产生中间结...原创 2018-10-10 16:58:40 · 1004 阅读 · 0 评论 -
HBase入门
overview: 特点 安装 操作 特点 非关系型数据库 存储k,v 扩展性强 在物理存储上是根据列簇来分割的 对事务支持性差 安装 从官网上下载包 解压 角色分配如下: Hdp01: namenode datanode regionserver hmaster zookeeperHdp02: datanode reg...原创 2018-10-09 15:48:06 · 134 阅读 · 0 评论 -
Flume数据采集
overview介绍 安装 使用 介绍 数据采集工具,非高可用 安装 从官网下载包 解压 配置文件 静态文件: #定义三大组件的名称 ag1.sources = source1 ag1.sinks = sink1 ag1.channels = channel1 # 配置source组件 ag1...原创 2018-10-09 15:43:37 · 359 阅读 · 0 评论 -
kafka的java api示例
kafka的javaAPI生产者示例:创建配置: 1、new Properties() 2、添加配置 metadata.broker.list serializer.class = kafka.serializer.StringEncoder 3、ProducerConfig() 4、创建Producer 5、发送示例代码: Properties prop...原创 2018-10-15 09:33:09 · 238 阅读 · 0 评论 -
kafka集群安装与使用
kafaka中的名词:Broker:安装kafka服务大那台机器就是一个broker (id要唯一)Producer:消息的生产者,负责将数据写入到broker中(push)Consumer:消息的消费者,负责从kafka中读取数据(pull),老版本的消费者依赖zk,新版本的不需要Topic:主题,相当于是数据的一个分类,不同topic存放不同的数据Consumer Group:消费...原创 2018-10-14 22:05:39 · 169 阅读 · 0 评论 -
Redis安装和使用
Redis安装单机版的Redis1、到官网下载Redis https://redis.io/2、将Redis上传到服务器 并且解压 tar -zxvf -C3、进入到源码包中,编译并安装rediscd /usr/local/src/redis-3.2.12/make && make install若报错:可能是缺少gcc依赖:yum -y install...原创 2018-10-18 09:54:32 · 135 阅读 · 0 评论 -
SparkSQL对mysql的读写
SparkSQL JDBC数据源!:load这个方法不会真正读取mysql的数据//1、创建sparkSessionval sparkSession: SparkSession = SparkSession.builder().appName("JdbcDataSource").master("local[*]").getOrCreate() import sparkSession....原创 2018-10-11 16:17:59 · 501 阅读 · 0 评论