自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 Flink大数据实时标签实时ETL -- 项目介绍1

Flink实时标签,实时ETL

2022-03-26 13:45:07 5070 1

原创 实时可视化大数据项目01 -- 项目介绍

1、项目架构OGG + FileBeat + Kafka + Logstash + ElaticSearch + SpringBoot + Echarts + Jquery2、项目介绍1、项目是通过beat采集业务系统的日志,发送至kafka ,Logstash解析日志存入ElaticSearch,2、另外一个数据,通过oracle内部的OGG同步至kafka,消息中中包含insert,update的状态字段。采集时区分inset和update。由于ElaticSearch具有原子性。自己设置好do

2020-07-15 17:43:21 3789

原创 Flink大数据实时标签实时ETL --04mysql广播和kafka流合并

1、mysql广播和kafka流合并主要应用于实时流关联广播. 主要应该与实时流关联mysql上规则增加关联性.2、代码package com.funcimport com.bean.BuriedPointDetailBeanimport org.apache.flink.api.common.state.MapStateDescriptorimport org.apache.flink.streaming.api.functions.co.BroadcastProcessFunction

2023-04-24 20:15:05 655

原创 Flink大数据实时标签实时ETL --03加载规则类 (source Mysql)

Flink实时标签,实时ETL,生产实时代码

2022-05-21 16:40:54 2077 1

原创 Flink大数据实时标签实时ETL -- 主类代码介绍2

Flink实时标签,实时ETL,生产实时代码

2022-04-03 21:45:37 3810 1

原创 scala版本,spark将HDFS上的数据同步到hbase

1 spark将HDFS上的数据同步到hbase将hdfs数据转换为hfile, 快速导入hbase2 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt

2022-03-10 22:00:06 2232

原创 数仓模型事实表模型设计

事实表:数据明细层,将ODS层的数据,进行ETL后,轻度聚合 ,展开明细! 然后存入DWD层。1、在展开明细时,对部分维度进行扩充。如增加位置信息。2、参考星型模型的建模策略,对业务过程,粒度,维度,事实。使用3W的原则。 who:谁做的 where:在哪里做的 what:做的什么事实表的类型: 在设计事实表的时候,其实有多种不同类型,当然每个公司设计方式不一样。我们在设计的时候就包含3种。1. 事务...

2022-03-10 21:47:15 341

原创 pySpark构建临时表报错

1 、 pySpark构建临时表报错TypeError: StructType can not accept object ‘hasMore’ in type <class ‘str’>2 、解决办法是: 添加[] 构建成listres = json.loads(result)df = self.sc.createDataFrame([res], my_schema)

2022-03-10 21:34:53 599

原创 dataX同步mysql至hive

mysql同步至hdfs

2022-03-10 21:30:21 8448 4

原创 实时可视化大数据项目05 -- UI界面

很多人在问我,UI界面的源代码。首先我先说明一下,UI是使用开源的在我第一部分就提出来了,所以,在这里感谢开源软件码云提供。 如果喜欢也可以给开源的commit点点 star 。在这里也感谢作者。下方我也贴出几张图片,以及地址给大家下载使用,该作者也在持续更新中。下方为地址:大屏数据展示模板: 各类大屏展示模板持续更新中......

2021-11-13 22:44:54 1910

原创 pyspark.SparkSession查询hive数据写入mysql

# -*- coding: utf-8 -*-# created by say 2021-06-09from pyspark.sql import SparkSessionimport datetimeimport loggingimport pymysqlimport sys, ossys.path.append(os.getcwd())isPrd = TrueMP_DB_CONNECT_INFO = \ {'host': '123456.mysql.aliyun.co.

2021-08-21 18:53:37 611

原创 pyspark定时统计hive的数据存入mysql

1 pyspark定时统计hive的数据存入mysql在做指标系统的时候,我们很多时候都需要统计,hive上面的数据,然后存入mysql 便于反复查询. 代码很简单. 还支持补数.2 代码# -*- coding: utf-8 -*-# created by say 2021-04-12from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context import SparkContextfrom

2021-08-21 18:44:10 342

原创 scala版本,spark将hive的数据批量导入hbase

1 spark将hive上的数据同步到hbase将hive数据转换为hfile, 快速导入hbase ,里面有很多坑.比如 : 版本不一致.还有就是本地版本和集群版本不一致导致class不存在.写hbase代码最好是使用java和scala。我这里使用的是spark2.4 + hbase 2.1 切记不同版本使用的方法不一样。2 代码package com.test.taskimport java.net.URIimport org.apache.hadoop.conf.Configura

2021-07-16 21:17:56 875 3

原创 pyspark将HIVE的统计数据同步至mysql

pyspark将HIVE的统计数据同步至mysql很多时候我们需要hive上的一些数据出库至mysql, 或者由于同步不同不支持序列化的同步至mysql , 使用spark将hive的数据同步或者统计指标存入mysql都是不错的选择代码# -*- coding: utf-8 -*-# created by say 2021-06-09from pyhive import hivefrom pyspark.conf import SparkConffrom pyspark.context

2021-07-03 20:38:41 507 2

原创 python脚本通过dataX增量同步mysql数据至HIVE

#!/usr/bin/env python-- coding: utf-8 --增量同步消息from pyhive import hiveimport os, sys,datetimeisPrd = TruehiveInfo = {‘host’:‘192.168.1.1’,‘port’:10000, ‘user’:‘root’,‘database’:‘sdr_ods’,‘hdfs’:‘hdfs://192.168.1.1:8020’} if(isPrd) else {‘host’:‘192.1

2021-06-29 23:36:25 1074

原创 ElasticSearch重建索引以及重建优化

1、前言我们都知道elasticSearch在创建好mapping后不能修改mapping的字段type,因为elasticSearch的底层是lucene,他是会先构建好分词,以及倒排索引等一些操作。所以,是不能修改mapping的。又是我们在工作中:比如,date类型弄成了text类型,或者相反。还有inter类型,需要变为float类型。等情况。我们总不可能将索引删除,重新创建一个index,这样会丢失数据。解决办法就是重建索引。2、重建索引所谓重建并不是删除重建创建mapping,而是使用别名

2020-09-14 22:59:30 901

原创 Kafka源码阅读 ------ 3(Producer核心主流程)

1、前言上一章介绍了kafka的初始化。本章主要介绍,producer的核心主流程。还是那句话:我们先把握重点流程,然后在逐一分析。逐一击破。看不懂的先小本本记下来。流程走完再去查询相关资料。流程我们还是一样,先把流程图放出来。让大家对于流程有一个清晰的认识。2、核心主流程的流程图这里面的一些细节还没有描写的详细,但是整体流程没有错。图片看不清,请双击放大。我上传的都是无水印原图。喜欢请搬走,顺带点一赞!3、代码部分最近比较忙,后续会慢慢更新,这次主要更新了流程图。如有不对地方还望交流指

2020-09-12 17:36:43 650

原创 Kafka源码阅读 ------ 2 (Producer初始化)

1、前言上一章介绍了下载和导入以及如何找到源码的入口。本章主要介绍,producer的初始化。还是那句话:我们先把握重点流程,然后在逐一分析。逐一击破。看不懂的先小本本记下来。流程走完再去查询相关资料。2、源码开始...

2020-09-02 22:39:21 709

原创 Kafka源码阅读 ------ 1(下载导入和源码入口)

1、前言源码能让我们学习和成长很多。1、学习前沿的架构设计。2、学习编程模型,以及结构和代码设计。开源的源码都是很优雅。3、对于这门技术能深入理解,遇到问题能快速定位。4、网络设计,异常设计,读写分析,高并发。等一系列的。尤其是Kafka的源码。2、下载到kafka官网下载你要学习的版本,新版本由于编程风格以及commit的人的风格不一。最好是学习后几个版本。下载好,放入指定位置解压官网: http://kafka.apache.org/下载地址:http://kafka.apache.o

2020-09-02 22:32:41 2093

原创 kettle中的java代码,休眠和数据判断

import java.util.regex.Matcher;import java.util.regex.Pattern;import java.lang.Thread;import java.util.Random; public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException { Object[] r = getRow(); if (r == null) {

2020-08-30 22:24:55 761

原创 Elasticsearch性能优化总结

1、前言用了很久的ElasticSearch终于想给自己以及大家总结一份调优文档了。我的集群是10台ElasticSearch,内存是每台16G,2core的CPU,硬件资源并不好。所以对于调优工作就更要认真做好了。如果大家有条件选择SSD就更加好,这样能大大提高ElasticSearch的速度和性能。2、内存设置由于本身的资源不好,所以设置内存极为重要。同时ElasticSearch是基于lucene,而lucene是通过内存来缓存索引数据,以提供快速的查询性能。...

2020-08-15 18:38:54 599

原创 大数据面试总结-ysjt

1、前言工作了太安逸,没有准备好。还是挺喜欢这家公司。业务上的问题我就放出来了。技术的问题我就凭自己的记忆写一写,以此来帮助大家和自己更好的面试。自己没有回答出来的,我将会百度贴出来。祝大家和自己找到满意的工作!2、问题2.1 hadoop的MR的过程分为六个阶段。阶段1、逻辑切片:inputSplit进行标准分割,默认片的大小和块的大小一样的。Split size=Block size。每一个切片由一个MapTask处理。阶段2、对切片的数据按一定规则解析成<Key,value>

2020-08-02 09:57:55 206

原创 hive窗口函数的使用

问题描述:怎样在数据库的一个表里筛选出每一人的时间最新的一条记录select * from(select b.user_code, b.name, b.dept_code, b.register_time, b.is_valid, b.superior_code, b.group_worker, b.member_level, b.activation_state,b.activation_

2020-07-27 16:26:53 127

原创 实时可视化大数据项目04 -- 后端代码

1、SpringBootApplicationimport org.springframework.boot.SpringApplication;import org.springframework.boot.autoconfigure.SpringBootApplication;/** * @author ayub */@SpringBootApplicationpublic class BigdataEsApplication { public static void mai

2020-07-26 17:00:20 1737

原创 实时可视化大数据项目03 -- 前端和配置

<!doctype html> 大数据经纪智慧屏 页面加载中... 大数据经纪智慧屏 智慧屏 <div class="sycm"> &lt

2020-07-26 15:12:48 1276 1

原创 实时可视化大数据项目02 -- 项目目录介绍

1、项目目录结构后端采用分层架构,前端springBoot整合了前端。2、目录介绍2.1、dao存放的是实体类,基本是封装好的对象,传递给前端的对象。2.2、service业务层: 封装数据请求ES的部分。2.3、supportUtils类,主要是一些配置和一些utils类2.4、webcontroller层,用于给前端调用的接口。2.5、resource主要是一些配置文件和前端的静态文件...

2020-07-19 16:03:09 936

原创 java爬虫采集某保险公司产品数据

package com.qhb.spider;import org.apache.http.client.ClientProtocolException;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.CloseableHttpClient;import org.a

2020-06-28 23:19:31 669

原创 HttpClientUtils

package utils;import java.io.BufferedReader;import java.io.ByteArrayOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.util.ArrayList;

2020-06-28 23:15:15 1094

原创 记一次使用sqoop从hive导入数据至mysql

背景是将hive app应用层的数据搬运至mysql中。1、 对于提交了sqoop 命令行 \后面不能有空格2、导入错误时。需要去查看yarn日志 historyJob日志1、http://10.128.100.87:19888/jobhistory2、根据jobID查看情况。3、查看失败的job 。4、了解node和logs的信息。主要是点击logs查看错误信息5、Click here for the full log. 点击here 。详细查看内容6、找到 Caused by

2020-06-27 18:14:12 197

原创 Filebeat配置文件

###################### Filebeat Configuration Example ########################## This file is an example configuration file highlighting only the most common# options. The filebeat.reference.yml file from the same directory contains all the# supported

2020-06-27 18:09:45 356

原创 StrutsStreaming消费kafka的数据sink全过程

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav

2020-06-09 22:30:02 768 2

原创 SparkSteaming整合kafka----采用direct(低级Api)

废话不多说,直接上代码1、pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://ma

2020-06-04 20:53:32 264

原创 ElasticSearch RESTFUL API的简单操作(增删改查)

1、查看状态GET /_cat/health?v2、查询索引全部数据GET /ma_2020/_search3、查询索引mappingGET /ma_2020/_mapping4、删除索引DELETE /ma_20205、创建索引PUT /ma_20206、设置mappingPUT /qhpms_retail_headpremium/_mapping{ "properties" : { "@timestamp" : { "ty

2020-06-03 11:41:52 593

原创 Sqoop数据导入到HBase

Hbase具有幂等性,对于多次导入都可以一样数据。不会新增数据。1、oracle全量导入Hbasesqoop import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:test \ --username test \ --password-file /user/admin/sqoop/pwd/dev/test.pwd \ --table TEST.TEST_BASE \ --columns USER_ID,NAME,GROUP_NAME,

2020-05-30 13:03:23 1666

原创 Sqoop 导入HDFS, Hive

案例1:全量导入hdfs(删除目标文件夹)这是建立job,运行时需要 sqoop job -exec test_item_jobsqoop job --create test_item_job \ --meta-connect jdbc:hsqldb:hsql://192.168.1.86:16000/sqoop \ -- import \ --connect jdbc:oracle:thin:@192.168.1.160:1521:test \ --username test \ --pa

2020-05-29 13:51:58 410

原创 ElasticSearch进行and,or,in,not in,group by多条件组合DSL结构化查询

1、两个条件and 问题:SELECT * FROM t_test_info t WHERE t.kv.p.keyword = '123' AND t.kv.b.keyword = 'p'如果想看详情数据设置sizeGET /t_test_info/_search{ "size": 0, "from": 0, "query": { "bool": { "must": [ { "term": { "kv.p.k

2020-05-23 18:00:16 2832

原创 ElasticSearch中distinct,count和group by的实现

1 - distinctSELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3;{“query”: {“term”: {“user_id_type”: 3}},“collapse”: {“field”: “user_id”}}{…“hits”: {“hits”: [{“_index”: “es_qd_mkt_visitor_packet_dev_v1_20180621”,“_type”: “ad_crowd”,

2020-05-20 11:01:44 768

原创 logstash消费kafka的数据

kafka的数据来源于Nginx的日志。#源数据192.168.1.123 - - [15/May/2020:21:47:39 +0800] "GET /nas/ma/q.gif?a=123&b=message&p=12345678901&b=p&timer=1589550459586 HTTP/1.1" 192.168.32.118:80 0.002 200采集后的到kafka的数据{ "@timestamp":"2020-05-15T13:47:43.

2020-05-15 22:15:48 975

原创 sqoop 从Hive导入Mysql

本案例为从Hive中导入至Mysql注意:hive中的字段和mysql的字段一定要一样。字段类型也要一样。sqoop export \ --connect "jdbc:mysql://10.128.18.79:3306/test?useUnicode=true&characterEncoding=utf-8" --username root --password Qhi@2019 \ --table t_customer_give_info \ --columns "c_sls_cde,l

2020-05-15 21:55:00 306

原创 Kafka常用命令

本文档主要是记录一些Kafka的常用命令:如果没有设置环境变量先进入bin目录。– 启动kafkanohup bin/kafka-server-start.sh config/server.properties &– 创建一个topic:kafka-topics.sh --create --zookeeper bigdata01:2181 --replication-factor...

2020-05-05 14:50:19 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除