自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Kettle无法访问http://127.0.0.1:9051页面

在解决当前问题之前,还困扰我的另外一个问题:从mysql抽取数据到hive,date类型和timestamp类型的数据,在kettle中一直爆出异常,更改kettle安装路径后,此问题也一并消失。

2023-10-25 11:20:47 793

原创 Ambari2.7.5+HDP3.1.5集成Kylin4.0.1所遇到的问题

【代码】Ambari2.7.5+HDP3.1.5集成Kylin4.0.1所遇到的问题。

2023-10-24 10:49:17 200

原创 YAML详解

1. 什么是YAML?① YAML是"YAML Ain’t a Markup Language"(YAML不是一种标记语言)的递归缩写。YAML的意思其实是:“Yet Another Markup Language”(仍是一种标记语言)。主要强度这种语音是以数据为中心,而不是以标记语言为重心,例如像xml语言就会使用大量的标记。② YAML是一个可读性高,易于理解,用来表达数据序列化的格式。它的语法和其他高级语言类似,并且可以简单表达清单(数组)、散列表,标量等数据形态。它使用空白符号缩进和大量依赖外

2021-11-30 17:20:29 5254

原创 spark消费kafka数据,offset存入redis异常:Attempting to read from a broken connection

记录踩过的坑。前段时间做项目遇到一个异常(Attempting to read from a broken connection),图已经找不到了,就不贴图了。使用到redis主要用于记录kafka的offset,本地测试使用的setMaster(“local”)单线程调试模式,程序完美运行,集群执行则为多线程运行,跑了一会便报了异常,网上查阅相关自恋,发现kafka分区与线程之间关系,线程数量<=kafka分区,调整参数解决了问题,特此记录一下。...

2021-08-17 14:30:10 1779

原创 hive中重建新表插入报错

在hive中,会有这样一种情形:1、创建一个分区外部表A(比如A表有5个字段),并且向A表里指定的分区(比如20200728这个分区)里插入数据2、发现A表缺少一些字段,因为存在元数据不实时更新的问题,不想更新元数据,就进行删表重新建表B(表B与表A除了多了几个字段外,别的都一样)3、再执行hql脚本,把最新的字段样式的数据插入到20200728这个分区里会出现如下的报错:Failed with exception java.io.IOException: rename for src path:

2020-07-28 12:15:14 748

原创 初学SparkStreaming小案例(练习)

流式处理socket数据,实现单词统计import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * sparkStreming流式处理接受socket数据,实现单词统计 */

2020-06-07 15:18:59 455

原创 kafka生产者模拟数据(练习)

package com.sjw.spark.sjw.sparkstreamingimport java.io.{File, PrintWriter}import java.text.SimpleDateFormatimport java.util.{Date, Properties}import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.spark.sql.SparkSe

2020-06-07 14:41:22 1223

原创 Kafka、zk集群部署

1.克隆虚拟机克隆出来三个虚拟机ip如下:one 192.168.73.200two 192.168.73.201three 192.168.73.202修改eth1为eth0编辑网络配置删除配置重启虚拟机reboot修改结果如下:2.zookeeper集群第一步:zookeeper的配置文件** zoo.cfg 每个文件都加入如下内容server.1=192.168.25.130:2888:3888server.2=192.168.25.137:2888:3888

2020-05-27 19:50:43 274

原创 Kafka的环境搭建

Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。**Kafka是一个分布式消息队列:生产者、消费者的功能。**它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka对消息保存时根据Topic进行归类,发送消息者称为P

2020-05-27 19:29:52 378

原创 hive实现WordCount

一、WordCount原理初学MapReduce编程,WordCount作为入门经典,类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本,统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例,基本描述清楚了WordCount的内部处理逻辑。本文主要是从Hive使用的角度处理WordCount,就不赘述,之前的一篇博文...

2020-05-27 08:46:03 277

原创 Spark Core 之平均值、最值、排序等入门程序

平均值 val conf = new SparkConf().setMaster("local[*]").setAppName("sort") //sc sparkContext总入口 val sc = new SparkContext(conf) sc.textFile(args(0)) .map(line => (line.split(" ")(1),(line.split(" ")(2)))) .groupByKey() .map(

2020-05-26 20:43:28 368

原创 Spark Core之ip地址分析

//todo:创建sparkconf 设置参数 val sparkConf: SparkConf = new SparkConf().setAppName("IPLocaltion").setMaster("local[2]") //todo:创建SparkContext val sc = new SparkContext(sparkConf) //todo:读取基站数据 val data: RDD[String] = sc.textFile(args(0)).

2020-05-26 19:51:33 299

原创 Spark Core 之PV,UV

PV 代码如下//todo:创建sparkconf,设置appName //todo:setMaster("local[2]")在本地模拟spark运行 这里的数字表示 使用2个线程 val sparkConf = new SparkConf().setAppName("PV").setMaster("local[2]") //todo:创建SparkContext val sc = new SparkContext(sparkConf) //todo:读取数据

2020-05-26 19:44:18 157

原创 手机APP信息统计分析系统

用户行为分析新增用户1.前天的新增用户最早的启动app的时间就是昨天 selectcount(*)from(select min(createdatms) mintimefrom ext_startup_logswhere appid = 'sdk34734'group by deviceidhaving mintime >= getdaybegin(-2) and mintime < getdaybegin(-1))t ; 2.本周的新增用户

2020-05-12 20:59:35 673

原创 JDBC连接hive

import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class Hive { private static String driverName = "org.apache.hive.jdbc.HiveDriver";//hive驱动名称 private.

2020-05-11 20:16:18 216

原创 MapReduce之倒排索引2

static { System.setProperty("hadoop.home.dir", "E:/x3/hadoop-2.9.2"); } public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { //0.初始化一个作业 Configuration conf = new Configura.

2020-05-11 20:13:08 106

原创 MapReduce之找关系(父亲孩子)

作业:singlejoin.txt: child parent Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Marry Lucy Ben Jack Alice Jack Jesse Terry Alice Terry Jesse Philip Terry Philip Alma Mark Terry Mark Almastatic { System.setProperty("hadoop.home.dir","E:

2020-05-11 20:09:03 526

原创 MapReduce之倒排索引

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}//mappublic static class MyMapper extends Mapper<LongWritable,Text,Text,Text>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOExcept

2020-05-11 19:37:46 196

原创 MapReduce之join(练习)

static {System.setProperty(“hadoop.home.dir”, “D:\software\hadoop-2.9.2”);}public static class MyMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(L...

2020-04-26 22:22:22 148

原创 MapReduce之二次排序(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}// mappublic static class MyMapper extends Mapper<LongWritable,Text,SecondSortData,IntWritable>{ @Override protec...

2020-04-26 22:12:23 222

原创 MapReduce之week2 test 分区计算结余(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}//mappublic static class MyMapper extends Mapper<LongWritable,Text,Text,Week2Data>{ @Override protected void map(L...

2020-04-26 22:08:49 92

原创 MapReduce之求每年最高气温(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}public static class MyMapper extends Mapper<LongWritable,Text,Text,Temp>{ @Override protected void map(LongWritable...

2020-04-26 18:50:36 681

原创 MapReduce入门之单词统计(练习)

//本地运行和远程调用需要/* static {System.setProperty(“hadoop.home.dir”, “E:\x3\hadoop-2.9.2”);}*/public static class MyMapper extends Mapper<LongWritable,Text,Text,LongWritable>{ /** * ...

2020-04-26 08:26:48 257

原创 java api针对hdfs,进行创建、上传、下载、重命名、删除文件(练习)

static {System.setProperty(“hadoop.home.dir”, “E:\x3\hadoop-2.9.2”);}public static void main(String[] args) { // FileSystem fs = getHadoopFileSystem(); //创建文件 /*boolean result = createPath...

2020-04-25 08:15:57 903

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除