自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(126)
  • 收藏
  • 关注

原创 Anaconda3 安装

Anaconda3 安装[root@gree139 install]# bash Anaconda3-2020.07-Linux-x86_64.sh [root@gree139 install]# cd[root@gree139 ~]# lsanaconda3 [root@gree139 ~]# find -name jupyter./anaconda3/pkgs/jupyter_core-4.6.3-py38_0/bin/jupyter./anaconda3/pkgs/ipykerne.

2022-01-21 10:56:43 1329

原创 Canal安装使用

create database canalstu;use canalstu;create table student( id int(8), name varchar(32), age int(8))# [root@gree139 mysql]# vi /etc/my.cnf# 14 server-id=1# 15 log-bin=mysql-bin# 16 binlog_format=row# 17 binlog-do-.

2022-01-21 10:54:42 2540

原创 Azkaban实际操作脚本记录

azkaban.projectazkaban-flow-version: 2.0one.flownodes: - name: jobOne type: command config: command: echo "Hello world"two.flow 依赖nodes: - name: jobA type: command config: command: echo "jobA" - nam..

2022-01-21 10:50:58 2548

原创 azkaban 安装学习记录

azkaban 安装[root@gree139 kb15tmp]# cd /opt/install/azkaban-db-3.84.4.tar.gzazkaban-exec-server-3.84.4.tar.gzazkaban-web-server-3.84.4.tar.gz[root@gree139 install]# mkdir -p /opt/soft/azkaba[root@gree139 install]# tar -zxf azkaban-db-3.84.4.tar.gz -.

2022-01-17 22:21:57 561

原创 离线Hive数据仓库学习 归一化分析

-- (x - min) / (max - min) 归一化create temporary macro percentageValue(value double, min_value double, max_value double) case when value is null or min_value = max_value then 0.5 else (value-min_value)/(max_value-min_value) en.

2022-01-17 22:19:20 1588

原创 离线Hive数据仓库学习 dm_attendee

set hive.auto.convert.join=falsecreate database dm_attendee;use dm_attendee;----------temp start-----------select t.userid, t.eventid, t.interested, t.invited, t.`timestamp`, e.user_id as event_creator, .

2022-01-17 22:17:36 601

原创 离线Hive数据仓库学习 dws_events

use dws_events;create database if not exists dws_events;-- 在dws层记录一下,每一位用户有多少个朋友 user_friend_count;drop table if exists user_friend_count;create table if not exists user_friend_count stored as orc as select userid,count(*) friendcount from dwd_.

2022-01-17 22:15:36 425

原创 离线Hive数据仓库学习 dwd_events

离线Hive数据仓库学习hbase(main):005:0> count 'events_db:train'flume -> kafka -> hbase -> hive[root@gree139 hive110]# nohup ./bin/hive --service hiveserver2 &[root@gree139 hive110]# nohup ./bin/hive --service metastore &//避免在map阶段聚合s.

2022-01-17 22:14:16 1022

原创 MongoDB学习记录

传统https://www.cnblogs.com/phpandmysql/p/7763394.htmlyarmhttps://blog.csdn.net/guoxingege/article/details/47339885两种不同的配置文件方式,一种传统的格式,另一种是yarm[root@gree139 install]# tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgz -C ../soft[root@gree139 install]#.

2022-01-17 22:10:17 152

原创 Mongodb安装与简单使用笔记

[root@gree139 install]# tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgz -C ../soft[root@gree139 install]# cd ../soft[root@gree139 soft]# mv mongodb-linux-x86_64-rhel70-4.0.24/ mongodb[root@gree139 soft]# cd ./mongodb/[root@gree139 mongodb]# mkdir -p .

2022-01-09 23:49:15 730

原创 answer_question.log 在线考试系统的学员答题批改日志数据字段分析

[root@linux01 exam]# hdfs dfs -mkdir -p /app/data/exam2101[root@linux01 exam]# hdfs dfs -put ./answer_question.log /app/data/exam2101scala> sc.textFile("/app/data/exam2101")scala> res1.map(x=>x.split("\\s+")).map(x=>(x(8),x(9))).collect..

2022-01-09 23:47:31 651

原创 countrydata.csv 世界新冠疫情数据字段分析

[root@gree139 exam]# hdfs dfs -mkdir -p /app/data/exam2011[root@gree139 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam2011scala> sc.textFile("/app/data/exam2011/")scala> res24scala> res24.map(x=>x.split(","))scala> res27.c

2022-01-09 23:40:57 928

原创 UserBehavior 阿里巴巴淘宝用户行为数据字段分析

[root@gree139 exam]# hdfs dfs -mkdir -p /data/userbehavior[root@gree139 exam]# hdfs dfs -put ./UserBehavior.csv /data/userbehavior[root@gree139 exam]# hdfs dfs -ls /data/userbehavior1 请在 HDFS 中创建目录/data/userbehavior,并将 UserBehavior.csv 文件传到该目

2022-01-09 23:37:43 728

原创 meituan_waimai_meishi.csv 美团外卖平台字段数据分析

[root@gree139 ~]# start-all.sh[root@gree139 ~]# zkServer.sh start[root@gree139 ~]# zkServer.sh status[root@gree139 ~]# hive[root@gree139 ~]# hbase shell[root@gree139 ~]# spark-shell[root@gree139 ~]# cd /opt/exam/[root@gree139 exam]# lsm

2022-01-09 23:36:03 1888

原创 KafkaToHbase接口实现五张表 学习记录

handlerimport org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.util.Bytes;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import java.util.ArrayList;import j...

2022-01-04 23:47:53 470

原创 KafkaToHbase实现五张表学习记录

EventAttendToHBimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HConstants;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;impor.

2022-01-04 23:38:47 681 1

原创 连接池简单实现学习记录

ConstClass/** * 常量 */public class ConstClass { public static final String MYDB_CONF_NAME="mydb.properties"; public static final String MYSQL_DRIVER_STR="mysqldriver"; public static final String MYSQL_USER_STR="user"; public static .

2022-01-02 23:59:20 295

原创 C3P0-Mysql简单实现学习记录

pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-.

2022-01-02 23:51:27 669

原创 SparkStream

SparkStreamDemoimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamDemo { def main(args: Array[String]): Unit = .

2021-12-29 23:46:19 741

原创 kafkaStream

UserFriendsStreamimport org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.errors.StreamsException;import org.apache.kafka.streams..

2021-12-29 23:40:29 527

原创 Flume-Kafka导数据

event_attendess.conf[root@linux01 kb15conf]# vi ./event_attendess.conf eventattendess.sources=eventAttendessSourceeventattendess.channels=eventAttendessChanneleventattendess.sinks=eventAttendessSinkeventattendess.sources.eventAttendessSource.t...

2021-12-29 23:36:32 617

原创 Kafka MyProducer、MyConsumer

MyProducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import..

2021-12-29 23:09:51 344

原创 kafka安装以及简单使用

[root@linux01 config]# vi ./server.properties21 broker.id=036 advertised.listeners=PLAINTEXT://192.168.111.131:909260 log.dirs=/opt/soft/kafka211/kafka-logs123 zookeeper.connect=192.168.111.131:2181127 delete.topic.enable=true[root@linux01 conf.

2021-12-23 23:58:35 86

原创 flume拦截器演示InterceptorDemo

import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;/** * 对Source接收到event进行分辨 * Event对象,:header,body * body内容 以hel..

2021-12-23 23:48:21 353

原创 flume一些复杂操作例子events、eventattend、train

[root@linux01 kb15conf]# vi ./events-flume-logger.conf events.sources=eventsSourceevents.channels=eventsChannelevents.sinks=eventsSinkevents.sources.eventsSource.type=spooldirevents.sources.eventsSource.spoolDir=/opt/kb15tmp/flumelogfile/eventseve.

2021-12-23 23:44:20 508

原创 安装flume,简单使用学习记录

[root@linux01 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C ../soft[root@linux01 soft]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160[root@linux01 soft]# cd flume160/[root@linux01 flume160]# cd conf/[root@linux01 conf]# cp flume-env.sh.tem.

2021-12-23 23:41:57 919

原创 Spark GraphX 中的PageRank算法、pregel函数、航班飞行网图分析

PageRank算法import org.apache.spark.SparkContextimport org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessioncase class User(name:String,age:Int,inDeg:Int,outDeg:Int)objec.

2021-12-21 22:49:13 1061

原创 拉链表的Hive环境下的详细操作

目录1.原始表操作2.新增三条数据操作3.新增四条数据1.原始表操作[root@linux01 ~]# cd /opt/tmp/lalian[root@linux01 lalian]# vi ./orders.txt vi ./orders.txt 原始表1 2021-12-20 2021-12-20 创建2 2021-12-20 2021-12-20 创建3 2021-12-20 2021-12-20 创建hive> drop database la.

2021-12-18 22:56:14 868

原创 拉链表原理、设计、以及Hive环境下实际操作

1.前言本篇将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。

2021-12-18 20:20:26 1185 1

原创 初识Spark GraphX

package cn.kgc.graphxdemoimport org.apache.spark.SparkContextimport org.apache.spark.graphx.{Edge, EdgeTriplet, Graph, GraphLoader}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject GraphDemo1 { def main(args: Array[Str.

2021-12-16 23:32:37 624

原创 Spark数据分析及处理

目录用例1:数据清洗EtlDemoJdbcUtils连接Mysql用例2:用户留存分析Retention用例3:活跃用户分析Active用例1:数据清洗EtlDemo用例1:数据清洗读入日志文件并转化为RDD[Row]类型 按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉event_time为空的数据将url按照”&”以及.....

2021-12-16 23:05:01 2028

原创 Json复杂处理

scala> import org.apache.spark.sql.types._import org.apache.spark.sql.types._scala> import org.apache.spark.sql.functions._import org.apache.spark.sql.functions._scala> val jsonSchema = new StructType().add("battery_level", LongType).add("c.

2021-12-14 22:58:55 993

原创 内置函数、自定义函数UDF、UDAF、UDTF

目录内置函数InnerFunction自定义函数UDF、UDAF、UDTF内置函数InnerFunctionpackage cn.kgc.functionimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkCo...

2021-12-13 23:45:22 359

原创 Spark DataFrame、DataSet、SparkToHive、SparkToMysql

目录DataFrameDemoDataSetDemoSparkToHiveSparkToMysqlDataFrameDemopackage cn.kgc.dsimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark......

2021-12-13 23:37:43 147

原创 Scala数组、集合函数大全P-Z

PRFunctionTestpackage testobject PRFunctionTest { def main(args: Array[String]): Unit = { //padTo 填充序列,如果当前序列长度小于 len,那么新产生的序列长度是 len,多出的几个位值填充 elem, // 如果当前序列大于等于 len ,则返回当前序列 //填充一个长度为 7 的序列,不足位补 8 val a = Array(1, 2, 3, 4) .

2021-12-13 23:30:53 525

原创 Scala数组、集合函数大全A-N

目录++ ++: +: :+ /: :\ACFunctionTestDEFFunctionTestGHIFunctionTestLMNFunctionTest++ ++: +: :+ /: :\package testobject demo1 { def main(args: Array[String]): Unit = { val arr=Array(1,2,3,4) val first=arr(0) arr(3)=100 ......

2021-12-13 23:26:16 891

原创 Scala异常处理、隐式转换、泛型、协变和逆变、上下限

目录Scala异常处理隐式转换泛型、协变和逆变、上下限Scala异常处理package chapter09plusobject Test01_Exception { def main(args: Array[String]): Unit = { try{ val n =10 /0 //被除数为0 }catch { case e:ArithmeticException => { println("发生...

2021-12-13 23:00:11 112

原创 Scala模式匹配 匹配常量、类型、数组、列表、元组,匹配元组扩展、匹配对象及样例类,偏函数

目录匹配常量、类型、数组、列表、元组、匹配元组扩展匹配对象及样例类偏函数匹配常量、类型、数组、列表、元组、匹配元组扩展package chapter08object Test01_PatternMatchBase { def main(args: Array[String]): Unit = { //1.基本定义语法 val x:Int=2 val y:String=x match { case 1=>"one"......

2021-12-09 23:14:29 472

原创 Spark 装载CSV、JSON数据源、年龄统计UserAge实例

装载CSV数据源import org.apache.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql._import org.apache.spark.{SparkConf, SparkContext}object ReadCsvDemo { def main(args: Array[String]): Unit ..

2021-12-09 23:00:49 437

原创 RDD持久化:Spark Cache缓存、CheckPoint检查点,RDD共享变量:累加器、广播变量

Cache缓存import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CacheDemo { def main(args: Array[String]): Unit = { val conf:SparkConf=new SparkConf().setMaster("local[*]").setAppName("cacheDemo") val sc:Sp..

2021-12-09 22:54:39 737

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除