sjw2020-CSDN博客

原创 Kettle无法访问http://127.0.0.1:9051页面

在解决当前问题之前，还困扰我的另外一个问题：从mysql抽取数据到hive，date类型和timestamp类型的数据，在kettle中一直爆出异常，更改kettle安装路径后，此问题也一并消失。

2023-10-25 11:20:47 793

原创 Ambari2.7.5+HDP3.1.5集成Kylin4.0.1所遇到的问题

【代码】Ambari2.7.5+HDP3.1.5集成Kylin4.0.1所遇到的问题。

2023-10-24 10:49:17 200

原创 YAML详解

1. 什么是YAML？① YAML是"YAML Ain’t a Markup Language"（YAML不是一种标记语言）的递归缩写。YAML的意思其实是：“Yet Another Markup Language”（仍是一种标记语言）。主要强度这种语音是以数据为中心，而不是以标记语言为重心，例如像xml语言就会使用大量的标记。② YAML是一个可读性高，易于理解，用来表达数据序列化的格式。它的语法和其他高级语言类似，并且可以简单表达清单（数组）、散列表，标量等数据形态。它使用空白符号缩进和大量依赖外

2021-11-30 17:20:29 5254

原创 spark消费kafka数据，offset存入redis异常：Attempting to read from a broken connection

记录踩过的坑。前段时间做项目遇到一个异常(Attempting to read from a broken connection)，图已经找不到了，就不贴图了。使用到redis主要用于记录kafka的offset，本地测试使用的setMaster(“local”)单线程调试模式，程序完美运行，集群执行则为多线程运行，跑了一会便报了异常，网上查阅相关自恋，发现kafka分区与线程之间关系，线程数量<=kafka分区，调整参数解决了问题，特此记录一下。...

2021-08-17 14:30:10 1779

原创 hive中重建新表插入报错

在hive中，会有这样一种情形：1、创建一个分区外部表A(比如A表有5个字段)，并且向A表里指定的分区(比如20200728这个分区)里插入数据2、发现A表缺少一些字段，因为存在元数据不实时更新的问题，不想更新元数据，就进行删表重新建表B(表B与表A除了多了几个字段外，别的都一样)3、再执行hql脚本，把最新的字段样式的数据插入到20200728这个分区里会出现如下的报错：Failed with exception java.io.IOException: rename for src path:

2020-07-28 12:15:14 748

原创初学SparkStreaming小案例（练习）

流式处理socket数据，实现单词统计import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}/** * sparkStreming流式处理接受socket数据，实现单词统计 */

2020-06-07 15:18:59 455

原创 kafka生产者模拟数据(练习)

package com.sjw.spark.sjw.sparkstreamingimport java.io.{File, PrintWriter}import java.text.SimpleDateFormatimport java.util.{Date, Properties}import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.spark.sql.SparkSe

2020-06-07 14:41:22 1223

原创 Kafka、zk集群部署

1.克隆虚拟机克隆出来三个虚拟机ip如下：one 192.168.73.200two 192.168.73.201three 192.168.73.202修改eth1为eth0编辑网络配置删除配置重启虚拟机reboot修改结果如下：2.zookeeper集群第一步：zookeeper的配置文件** zoo.cfg 每个文件都加入如下内容server.1=192.168.25.130:2888:3888server.2=192.168.25.137:2888:3888

2020-05-27 19:50:43 274

原创 Kafka的环境搭建

Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。**Kafka是一个分布式消息队列：生产者、消费者的功能。**它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。Kafka对消息保存时根据Topic进行归类，发送消息者称为P

2020-05-27 19:29:52 378

原创 hive实现WordCount

一、WordCount原理初学MapReduce编程，WordCount作为入门经典，类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本，统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例，基本描述清楚了WordCount的内部处理逻辑。本文主要是从Hive使用的角度处理WordCount，就不赘述，之前的一篇博文...

2020-05-27 08:46:03 277

原创 Spark Core 之平均值、最值、排序等入门程序

平均值 val conf = new SparkConf().setMaster("local[*]").setAppName("sort") //sc sparkContext总入口 val sc = new SparkContext(conf) sc.textFile(args(0)) .map(line => (line.split(" ")(1),(line.split(" ")(2)))) .groupByKey() .map(

2020-05-26 20:43:28 368

原创 Spark Core之ip地址分析

//todo:创建sparkconf 设置参数 val sparkConf: SparkConf = new SparkConf().setAppName("IPLocaltion").setMaster("local[2]") //todo：创建SparkContext val sc = new SparkContext(sparkConf) //todo：读取基站数据 val data: RDD[String] = sc.textFile(args(0)).

2020-05-26 19:51:33 299

原创 Spark Core 之PV，UV

PV 代码如下//todo：创建sparkconf，设置appName //todo:setMaster("local[2]")在本地模拟spark运行这里的数字表示使用2个线程 val sparkConf = new SparkConf().setAppName("PV").setMaster("local[2]") //todo:创建SparkContext val sc = new SparkContext(sparkConf) //todo:读取数据

2020-05-26 19:44:18 157

原创手机APP信息统计分析系统

用户行为分析新增用户1.前天的新增用户最早的启动app的时间就是昨天 selectcount(*)from(select min(createdatms) mintimefrom ext_startup_logswhere appid = 'sdk34734'group by deviceidhaving mintime >= getdaybegin(-2) and mintime < getdaybegin(-1))t ; 2.本周的新增用户

2020-05-12 20:59:35 673

原创 JDBC连接hive

import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class Hive { private static String driverName = "org.apache.hive.jdbc.HiveDriver";//hive驱动名称 private.

2020-05-11 20:16:18 216

原创 MapReduce之倒排索引2

static { System.setProperty("hadoop.home.dir", "E:/x3/hadoop-2.9.2"); } public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { //0.初始化一个作业 Configuration conf = new Configura.

2020-05-11 20:13:08 106

原创 MapReduce之找关系(父亲孩子)

作业：singlejoin.txt： child parent Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Marry Lucy Ben Jack Alice Jack Jesse Terry Alice Terry Jesse Philip Terry Philip Alma Mark Terry Mark Almastatic { System.setProperty("hadoop.home.dir","E:

2020-05-11 20:09:03 526

原创 MapReduce之倒排索引

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}//mappublic static class MyMapper extends Mapper<LongWritable,Text,Text,Text>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOExcept

2020-05-11 19:37:46 196

原创 MapReduce之join(练习)

static {System.setProperty(“hadoop.home.dir”, “D:\software\hadoop-2.9.2”);}public static class MyMapper extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(L...

2020-04-26 22:22:22 148

原创 MapReduce之二次排序(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}// mappublic static class MyMapper extends Mapper<LongWritable,Text,SecondSortData,IntWritable>{ @Override protec...

2020-04-26 22:12:23 222

原创 MapReduce之week2 test 分区计算结余(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}//mappublic static class MyMapper extends Mapper<LongWritable,Text,Text,Week2Data>{ @Override protected void map(L...

2020-04-26 22:08:49 92

原创 MapReduce之求每年最高气温(练习)

static {System.setProperty(“hadoop.home.dir”,“E:/x3/hadoop-2.9.2”);}public static class MyMapper extends Mapper<LongWritable,Text,Text,Temp>{ @Override protected void map(LongWritable...

2020-04-26 18:50:36 681

原创 MapReduce入门之单词统计(练习)

//本地运行和远程调用需要/* static {System.setProperty(“hadoop.home.dir”, “E:\x3\hadoop-2.9.2”);}*/public static class MyMapper extends Mapper<LongWritable,Text,Text,LongWritable>{ /** * ...

2020-04-26 08:26:48 257

原创 java api针对hdfs,进行创建、上传、下载、重命名、删除文件(练习)

static {System.setProperty(“hadoop.home.dir”, “E:\x3\hadoop-2.9.2”);}public static void main(String[] args) { // FileSystem fs = getHadoopFileSystem(); //创建文件 /*boolean result = createPath...

2020-04-25 08:15:57 903

sjw2020的博客