NeilVicia-CSDN博客

原创 Anaconda3 安装

Anaconda3 安装[root@gree139 install]# bash Anaconda3-2020.07-Linux-x86_64.sh [root@gree139 install]# cd[root@gree139 ~]# lsanaconda3 [root@gree139 ~]# find -name jupyter./anaconda3/pkgs/jupyter_core-4.6.3-py38_0/bin/jupyter./anaconda3/pkgs/ipykerne.

2022-01-21 10:56:43 1406

原创 Canal安装使用

create database canalstu;use canalstu;create table student( id int(8), name varchar(32), age int(8))# [root@gree139 mysql]# vi /etc/my.cnf# 14 server-id=1# 15 log-bin=mysql-bin# 16 binlog_format=row# 17 binlog-do-.

2022-01-21 10:54:42 2602

原创 Azkaban实际操作脚本记录

azkaban.projectazkaban-flow-version: 2.0one.flownodes: - name: jobOne type: command config: command: echo "Hello world"two.flow 依赖nodes: - name: jobA type: command config: command: echo "jobA" - nam..

2022-01-21 10:50:58 2633

原创 azkaban 安装学习记录

azkaban 安装[root@gree139 kb15tmp]# cd /opt/install/azkaban-db-3.84.4.tar.gzazkaban-exec-server-3.84.4.tar.gzazkaban-web-server-3.84.4.tar.gz[root@gree139 install]# mkdir -p /opt/soft/azkaba[root@gree139 install]# tar -zxf azkaban-db-3.84.4.tar.gz -.

2022-01-17 22:21:57 607

原创离线Hive数据仓库学习归一化分析

-- (x - min) / (max - min) 归一化create temporary macro percentageValue(value double, min_value double, max_value double) case when value is null or min_value = max_value then 0.5 else (value-min_value)/(max_value-min_value) en.

2022-01-17 22:19:20 1740

原创离线Hive数据仓库学习 dm_attendee

set hive.auto.convert.join=falsecreate database dm_attendee;use dm_attendee;----------temp start-----------select t.userid, t.eventid, t.interested, t.invited, t.`timestamp`, e.user_id as event_creator, .

2022-01-17 22:17:36 642

原创离线Hive数据仓库学习 dws_events

use dws_events;create database if not exists dws_events;-- 在dws层记录一下，每一位用户有多少个朋友 user_friend_count;drop table if exists user_friend_count;create table if not exists user_friend_count stored as orc as select userid,count(*) friendcount from dwd_.

2022-01-17 22:15:36 467

原创离线Hive数据仓库学习 dwd_events

离线Hive数据仓库学习hbase(main):005:0> count 'events_db:train'flume -> kafka -> hbase -> hive[root@gree139 hive110]# nohup ./bin/hive --service hiveserver2 &[root@gree139 hive110]# nohup ./bin/hive --service metastore &//避免在map阶段聚合s.

2022-01-17 22:14:16 1075

原创 MongoDB学习记录

传统https://www.cnblogs.com/phpandmysql/p/7763394.htmlyarmhttps://blog.csdn.net/guoxingege/article/details/47339885两种不同的配置文件方式，一种传统的格式，另一种是yarm[root@gree139 install]# tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgz -C ../soft[root@gree139 install]#.

2022-01-17 22:10:17 188

原创 Mongodb安装与简单使用笔记

[root@gree139 install]# tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgz -C ../soft[root@gree139 install]# cd ../soft[root@gree139 soft]# mv mongodb-linux-x86_64-rhel70-4.0.24/ mongodb[root@gree139 soft]# cd ./mongodb/[root@gree139 mongodb]# mkdir -p .

2022-01-09 23:49:15 765

原创 answer_question.log 在线考试系统的学员答题批改日志数据字段分析

[root@linux01 exam]# hdfs dfs -mkdir -p /app/data/exam2101[root@linux01 exam]# hdfs dfs -put ./answer_question.log /app/data/exam2101scala> sc.textFile("/app/data/exam2101")scala> res1.map(x=>x.split("\\s+")).map(x=>(x(8),x(9))).collect..

2022-01-09 23:47:31 695

原创 countrydata.csv 世界新冠疫情数据字段分析

[root@gree139 exam]# hdfs dfs -mkdir -p /app/data/exam2011[root@gree139 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam2011scala> sc.textFile("/app/data/exam2011/")scala> res24scala> res24.map(x=>x.split(","))scala> res27.c

2022-01-09 23:40:57 1037

原创 UserBehavior 阿里巴巴淘宝用户行为数据字段分析

[root@gree139 exam]# hdfs dfs -mkdir -p /data/userbehavior[root@gree139 exam]# hdfs dfs -put ./UserBehavior.csv /data/userbehavior[root@gree139 exam]# hdfs dfs -ls /data/userbehavior1 请在 HDFS 中创建目录/data/userbehavior，并将 UserBehavior.csv 文件传到该目

2022-01-09 23:37:43 832

原创 meituan_waimai_meishi.csv 美团外卖平台字段数据分析

[root@gree139 ~]# start-all.sh[root@gree139 ~]# zkServer.sh start[root@gree139 ~]# zkServer.sh status[root@gree139 ~]# hive[root@gree139 ~]# hbase shell[root@gree139 ~]# spark-shell[root@gree139 ~]# cd /opt/exam/[root@gree139 exam]# lsm

2022-01-09 23:36:03 2078

原创 KafkaToHbase接口实现五张表学习记录

handlerimport org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.util.Bytes;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import java.util.ArrayList;import j...

2022-01-04 23:47:53 502

原创 KafkaToHbase实现五张表学习记录

EventAttendToHBimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HConstants;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;impor.

2022-01-04 23:38:47 751 1

原创连接池简单实现学习记录

ConstClass/** * 常量 */public class ConstClass { public static final String MYDB_CONF_NAME="mydb.properties"; public static final String MYSQL_DRIVER_STR="mysqldriver"; public static final String MYSQL_USER_STR="user"; public static .

2022-01-02 23:59:20 325

原创 C3P0-Mysql简单实现学习记录

pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-.

2022-01-02 23:51:27 703

原创 SparkStream

SparkStreamDemoimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamDemo { def main(args: Array[String]): Unit = .

2021-12-29 23:46:19 803

原创 kafkaStream

UserFriendsStreamimport org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.errors.StreamsException;import org.apache.kafka.streams..

2021-12-29 23:40:29 584

原创 Flume-Kafka导数据

event_attendess.conf[root@linux01 kb15conf]# vi ./event_attendess.conf eventattendess.sources=eventAttendessSourceeventattendess.channels=eventAttendessChanneleventattendess.sinks=eventAttendessSinkeventattendess.sources.eventAttendessSource.t...

2021-12-29 23:36:32 693

原创 Kafka MyProducer、MyConsumer

MyProducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import..

2021-12-29 23:09:51 393

原创 kafka安装以及简单使用

[root@linux01 config]# vi ./server.properties21 broker.id=036 advertised.listeners=PLAINTEXT://192.168.111.131:909260 log.dirs=/opt/soft/kafka211/kafka-logs123 zookeeper.connect=192.168.111.131:2181127 delete.topic.enable=true[root@linux01 conf.

2021-12-23 23:58:35 110

原创 flume拦截器演示InterceptorDemo

import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;/** * 对Source接收到event进行分辨 * Event对象，：header，body * body内容以hel..

2021-12-23 23:48:21 397

原创 flume一些复杂操作例子events、eventattend、train

[root@linux01 kb15conf]# vi ./events-flume-logger.conf events.sources=eventsSourceevents.channels=eventsChannelevents.sinks=eventsSinkevents.sources.eventsSource.type=spooldirevents.sources.eventsSource.spoolDir=/opt/kb15tmp/flumelogfile/eventseve.

2021-12-23 23:44:20 552

原创安装flume，简单使用学习记录

[root@linux01 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C ../soft[root@linux01 soft]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160[root@linux01 soft]# cd flume160/[root@linux01 flume160]# cd conf/[root@linux01 conf]# cp flume-env.sh.tem.

2021-12-23 23:41:57 957

原创 Spark GraphX 中的PageRank算法、pregel函数、航班飞行网图分析

PageRank算法import org.apache.spark.SparkContextimport org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessioncase class User(name:String,age:Int,inDeg:Int,outDeg:Int)objec.

2021-12-21 22:49:13 1120

原创拉链表的Hive环境下的详细操作

目录1.原始表操作2.新增三条数据操作3.新增四条数据1.原始表操作[root@linux01 ~]# cd /opt/tmp/lalian[root@linux01 lalian]# vi ./orders.txt vi ./orders.txt 原始表1 2021-12-20 2021-12-20 创建2 2021-12-20 2021-12-20 创建3 2021-12-20 2021-12-20 创建hive> drop database la.

2021-12-18 22:56:14 913

原创拉链表原理、设计、以及Hive环境下实际操作

1.前言本篇将会谈一谈在数据仓库中拉链表相关的内容，包括它的原理、设计、以及在我们大数据场景下的实现方式。

2021-12-18 20:20:26 1334 1

原创初识Spark GraphX

package cn.kgc.graphxdemoimport org.apache.spark.SparkContextimport org.apache.spark.graphx.{Edge, EdgeTriplet, Graph, GraphLoader}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject GraphDemo1 { def main(args: Array[Str.

2021-12-16 23:32:37 686

原创 Spark数据分析及处理

目录用例1：数据清洗EtlDemoJdbcUtils连接Mysql用例2：用户留存分析Retention用例3：活跃用户分析Active用例1：数据清洗EtlDemo用例1：数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉event_time为空的数据将url按照”&”以及.....

2021-12-16 23:05:01 2156

原创 Json复杂处理

scala> import org.apache.spark.sql.types._import org.apache.spark.sql.types._scala> import org.apache.spark.sql.functions._import org.apache.spark.sql.functions._scala> val jsonSchema = new StructType().add("battery_level", LongType).add("c.

2021-12-14 22:58:55 1039

原创内置函数、自定义函数UDF、UDAF、UDTF

目录内置函数InnerFunction自定义函数UDF、UDAF、UDTF内置函数InnerFunctionpackage cn.kgc.functionimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.{SparkConf, SparkCo...

2021-12-13 23:45:22 410

原创 Spark DataFrame、DataSet、SparkToHive、SparkToMysql

目录DataFrameDemoDataSetDemoSparkToHiveSparkToMysqlDataFrameDemopackage cn.kgc.dsimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark......

2021-12-13 23:37:43 209

原创 Scala数组、集合函数大全P-Z

PRFunctionTestpackage testobject PRFunctionTest { def main(args: Array[String]): Unit = { //padTo 填充序列，如果当前序列长度小于 len，那么新产生的序列长度是 len，多出的几个位值填充 elem， // 如果当前序列大于等于 len ，则返回当前序列 //填充一个长度为 7 的序列，不足位补 8 val a = Array(1, 2, 3, 4) .

2021-12-13 23:30:53 624

原创 Scala数组、集合函数大全A-N

目录++ ++： +：：+ /: :\ACFunctionTestDEFFunctionTestGHIFunctionTestLMNFunctionTest++ ++： +：：+ /: :\package testobject demo1 { def main(args: Array[String]): Unit = { val arr=Array(1,2,3,4) val first=arr(0) arr(3)=100 ......

2021-12-13 23:26:16 946

原创 Scala异常处理、隐式转换、泛型、协变和逆变、上下限

目录Scala异常处理隐式转换泛型、协变和逆变、上下限Scala异常处理package chapter09plusobject Test01_Exception { def main(args: Array[String]): Unit = { try{ val n =10 /0 //被除数为0 }catch { case e:ArithmeticException => { println("发生...

2021-12-13 23:00:11 154

原创 Scala模式匹配匹配常量、类型、数组、列表、元组，匹配元组扩展、匹配对象及样例类，偏函数

目录匹配常量、类型、数组、列表、元组、匹配元组扩展匹配对象及样例类偏函数匹配常量、类型、数组、列表、元组、匹配元组扩展package chapter08object Test01_PatternMatchBase { def main(args: Array[String]): Unit = { //1.基本定义语法 val x:Int=2 val y:String=x match { case 1=>"one"......

2021-12-09 23:14:29 531

原创 Spark 装载CSV、JSON数据源、年龄统计UserAge实例

装载CSV数据源import org.apache.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.IntegerTypeimport org.apache.spark.sql._import org.apache.spark.{SparkConf, SparkContext}object ReadCsvDemo { def main(args: Array[String]): Unit ..

2021-12-09 23:00:49 488

原创 RDD持久化：Spark Cache缓存、CheckPoint检查点，RDD共享变量：累加器、广播变量

Cache缓存import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CacheDemo { def main(args: Array[String]): Unit = { val conf:SparkConf=new SparkConf().setMaster("local[*]").setAppName("cacheDemo") val sc:Sp..

2021-12-09 22:54:39 790

空空如也

空空如也