Ayub-CSDN博客

1、项目架构OGG + FileBeat + Kafka + Logstash + ElaticSearch + SpringBoot + Echarts + Jquery2、项目介绍1、项目是通过beat采集业务系统的日志，发送至kafka ，Logstash解析日志存入ElaticSearch，2、另外一个数据，通过oracle内部的OGG同步至kafka，消息中中包含insert，update的状态字段。采集时区分inset和update。由于ElaticSearch具有原子性。自己设置好do

2020-07-15 17:43:21 3886

原创 Flink大数据实时标签实时ETL --04mysql广播和kafka流合并

1、mysql广播和kafka流合并主要应用于实时流关联广播. 主要应该与实时流关联mysql上规则增加关联性.2、代码package com.funcimport com.bean.BuriedPointDetailBeanimport org.apache.flink.api.common.state.MapStateDescriptorimport org.apache.flink.streaming.api.functions.co.BroadcastProcessFunction

2023-04-24 20:15:05 752

原创 Flink大数据实时标签实时ETL --03加载规则类 (source Mysql)

Flink实时标签，实时ETL，生产实时代码

2022-05-21 16:40:54 2268 1

原创 Flink大数据实时标签实时ETL -- 主类代码介绍2

Flink实时标签，实时ETL，生产实时代码

2022-04-03 21:45:37 4308 1

原创 scala版本,spark将HDFS上的数据同步到hbase

1 spark将HDFS上的数据同步到hbase将hdfs数据转换为hfile, 快速导入hbase2 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt

2022-03-10 22:00:06 2332

原创数仓模型事实表模型设计

事实表：数据明细层，将ODS层的数据，进行ETL后，轻度聚合，展开明细！然后存入DWD层。1、在展开明细时，对部分维度进行扩充。如增加位置信息。2、参考星型模型的建模策略，对业务过程，粒度，维度，事实。使用3W的原则。 who:谁做的 where:在哪里做的 what:做的什么事实表的类型：在设计事实表的时候，其实有多种不同类型，当然每个公司设计方式不一样。我们在设计的时候就包含3种。1. 事务...

2022-03-10 21:47:15 427

原创 pySpark构建临时表报错

1 、 pySpark构建临时表报错TypeError: StructType can not accept object ‘hasMore’ in type <class ‘str’>2 、解决办法是: 添加[] 构建成listres = json.loads(result)df = self.sc.createDataFrame([res], my_schema)

2022-03-10 21:34:53 746

原创 dataX同步mysql至hive

mysql同步至hdfs

2022-03-10 21:30:21 8962 5

原创实时可视化大数据项目05 -- UI界面

很多人在问我，UI界面的源代码。首先我先说明一下，UI是使用开源的在我第一部分就提出来了，所以，在这里感谢开源软件码云提供。如果喜欢也可以给开源的commit点点 star 。在这里也感谢作者。下方我也贴出几张图片，以及地址给大家下载使用，该作者也在持续更新中。下方为地址：大屏数据展示模板: 各类大屏展示模板持续更新中......

2021-11-13 22:44:54 2030

原创 pyspark.SparkSession查询hive数据写入mysql

# -*- coding: utf-8 -*-# created by say 2021-06-09from pyspark.sql import SparkSessionimport datetimeimport loggingimport pymysqlimport sys, ossys.path.append(os.getcwd())isPrd = TrueMP_DB_CONNECT_INFO = \ {'host': '123456.mysql.aliyun.co.

2021-08-21 18:53:37 716

原创 pyspark定时统计hive的数据存入mysql

1 pyspark定时统计hive的数据存入mysql在做指标系统的时候,我们很多时候都需要统计,hive上面的数据,然后存入mysql 便于反复查询. 代码很简单. 还支持补数.2 代码# -*- coding: utf-8 -*-# created by say 2021-04-12from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context import SparkContextfrom

2021-08-21 18:44:10 411

原创 scala版本,spark将hive的数据批量导入hbase

1 spark将hive上的数据同步到hbase将hive数据转换为hfile, 快速导入hbase ,里面有很多坑.比如 : 版本不一致.还有就是本地版本和集群版本不一致导致class不存在.写hbase代码最好是使用java和scala。我这里使用的是spark2.4 + hbase 2.1 切记不同版本使用的方法不一样。2 代码package com.test.taskimport java.net.URIimport org.apache.hadoop.conf.Configura

2021-07-16 21:17:56 1044 3

原创 pyspark将HIVE的统计数据同步至mysql

pyspark将HIVE的统计数据同步至mysql很多时候我们需要hive上的一些数据出库至mysql, 或者由于同步不同不支持序列化的同步至mysql , 使用spark将hive的数据同步或者统计指标存入mysql都是不错的选择代码# -*- coding: utf-8 -*-# created by say 2021-06-09from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context

2021-07-03 20:38:41 637 2

原创 python脚本通过dataX增量同步mysql数据至HIVE

#!/usr/bin/env python-- coding: utf-8 --增量同步消息from pyhive import hiveimport os, sys,datetimeisPrd = TruehiveInfo = {‘host’:‘192.168.1.1’,‘port’:10000, ‘user’:‘root’,‘database’:‘sdr_ods’,‘hdfs’:‘hdfs://192.168.1.1:8020’} if(isPrd) else {‘host’:‘192.1

2021-06-29 23:36:25 1224

原创 ElasticSearch重建索引以及重建优化

1、前言我们都知道elasticSearch在创建好mapping后不能修改mapping的字段type，因为elasticSearch的底层是lucene，他是会先构建好分词，以及倒排索引等一些操作。所以，是不能修改mapping的。又是我们在工作中：比如，date类型弄成了text类型，或者相反。还有inter类型，需要变为float类型。等情况。我们总不可能将索引删除，重新创建一个index，这样会丢失数据。解决办法就是重建索引。2、重建索引所谓重建并不是删除重建创建mapping，而是使用别名

2020-09-14 22:59:30 1131

原创 Kafka源码阅读 ------ 3（Producer核心主流程）

1、前言上一章介绍了kafka的初始化。本章主要介绍，producer的核心主流程。还是那句话：我们先把握重点流程，然后在逐一分析。逐一击破。看不懂的先小本本记下来。流程走完再去查询相关资料。流程我们还是一样，先把流程图放出来。让大家对于流程有一个清晰的认识。2、核心主流程的流程图这里面的一些细节还没有描写的详细，但是整体流程没有错。图片看不清，请双击放大。我上传的都是无水印原图。喜欢请搬走，顺带点一赞！3、代码部分最近比较忙，后续会慢慢更新，这次主要更新了流程图。如有不对地方还望交流指

2020-09-12 17:36:43 717

原创 Kafka源码阅读 ------ 2 （Producer初始化）

1、前言上一章介绍了下载和导入以及如何找到源码的入口。本章主要介绍，producer的初始化。还是那句话：我们先把握重点流程，然后在逐一分析。逐一击破。看不懂的先小本本记下来。流程走完再去查询相关资料。2、源码开始...

2020-09-02 22:39:21 777

原创 Kafka源码阅读 ------ 1（下载导入和源码入口）

1、前言源码能让我们学习和成长很多。1、学习前沿的架构设计。2、学习编程模型，以及结构和代码设计。开源的源码都是很优雅。3、对于这门技术能深入理解，遇到问题能快速定位。4、网络设计，异常设计，读写分析，高并发。等一系列的。尤其是Kafka的源码。2、下载到kafka官网下载你要学习的版本，新版本由于编程风格以及commit的人的风格不一。最好是学习后几个版本。下载好，放入指定位置解压官网： http://kafka.apache.org/下载地址：http://kafka.apache.o

2020-09-02 22:32:41 2338

原创 kettle中的java代码，休眠和数据判断

import java.util.regex.Matcher;import java.util.regex.Pattern;import java.lang.Thread;import java.util.Random; public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException { Object[] r = getRow(); if (r == null) {

2020-08-30 22:24:55 885

原创 Elasticsearch性能优化总结

1、前言用了很久的ElasticSearch终于想给自己以及大家总结一份调优文档了。我的集群是10台ElasticSearch，内存是每台16G，2core的CPU，硬件资源并不好。所以对于调优工作就更要认真做好了。如果大家有条件选择SSD就更加好，这样能大大提高ElasticSearch的速度和性能。2、内存设置由于本身的资源不好，所以设置内存极为重要。同时ElasticSearch是基于lucene，而lucene是通过内存来缓存索引数据，以提供快速的查询性能。...

2020-08-15 18:38:54 805

原创大数据面试总结-ysjt

1、前言工作了太安逸，没有准备好。还是挺喜欢这家公司。业务上的问题我就放出来了。技术的问题我就凭自己的记忆写一写，以此来帮助大家和自己更好的面试。自己没有回答出来的，我将会百度贴出来。祝大家和自己找到满意的工作！2、问题2.1 hadoop的MR的过程分为六个阶段。阶段1、逻辑切片：inputSplit进行标准分割，默认片的大小和块的大小一样的。Split size=Block size。每一个切片由一个MapTask处理。阶段2、对切片的数据按一定规则解析成<Key,value>

2020-08-02 09:57:55 279

原创 hive窗口函数的使用

问题描述：怎样在数据库的一个表里筛选出每一人的时间最新的一条记录select * from(select b.user_code, b.name, b.dept_code, b.register_time, b.is_valid, b.superior_code, b.group_worker, b.member_level, b.activation_state,b.activation_

2020-07-27 16:26:53 185

原创实时可视化大数据项目04 -- 后端代码

1、SpringBootApplicationimport org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootApplication;/** * @author ayub */@SpringBootApplicationpublic class BigdataEsApplication { public static void mai

2020-07-26 17:00:20 1851

原创实时可视化大数据项目03 -- 前端和配置

<!doctype html> 大数据经纪智慧屏页面加载中... 大数据经纪智慧屏智慧屏 <div class="sycm"> &lt

2020-07-26 15:12:48 1388 1

原创实时可视化大数据项目02 -- 项目目录介绍

1、项目目录结构后端采用分层架构，前端springBoot整合了前端。2、目录介绍2.1、dao存放的是实体类，基本是封装好的对象，传递给前端的对象。2.2、service业务层：封装数据请求ES的部分。2.3、supportUtils类，主要是一些配置和一些utils类2.4、webcontroller层，用于给前端调用的接口。2.5、resource主要是一些配置文件和前端的静态文件...

2020-07-19 16:03:09 1003

原创 java爬虫采集某保险公司产品数据

package com.qhb.spider;import org.apache.http.client.ClientProtocolException;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.CloseableHttpClient;import org.a

2020-06-28 23:19:31 855

原创 HttpClientUtils

package utils;import java.io.BufferedReader;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.util.ArrayList;

2020-06-28 23:15:15 1197

原创记一次使用sqoop从hive导入数据至mysql

背景是将hive app应用层的数据搬运至mysql中。1、对于提交了sqoop 命令行 \后面不能有空格2、导入错误时。需要去查看yarn日志 historyJob日志1、http://10.128.100.87:19888/jobhistory2、根据jobID查看情况。3、查看失败的job 。4、了解node和logs的信息。主要是点击logs查看错误信息5、Click here for the full log. 点击here 。详细查看内容6、找到 Caused by

2020-06-27 18:14:12 241

原创 Filebeat配置文件

###################### Filebeat Configuration Example ########################## This file is an example configuration file highlighting only the most common# options. The filebeat.reference.yml file from the same directory contains all the# supported

2020-06-27 18:09:45 429

空空如也

空空如也