fljiaoyuxue-CSDN博客

转载 Lunix下大数据相关软件安装及配置（更新至Kafka）

https://blog.csdn.net/sweet19920711/article/details/118309793

2021-08-11 15:39:42 113

原创萌小宠项目————环境搭建（一）

大数据环境搭建一、Docker安装1.1 Centos Docker安装# 镜像比较大, 需要准备一个网络稳定的环境# 其中--mirror Aliyun代表使用阿里源curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun1.2 Ubuntu Docker安装【推荐】curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun上面运行不成功

2021-08-02 16:55:16 183

原创 sparkgraph

什么是sparkgragh ：它是为了为用户建立关系的视图SparkGraph图计算基础篇1. what？表示数据关系的数据结构基本元素：点Vertex，边EdgeVertex[(VertexId:Long,VertexAttr:Any)]Edge[(srcVertexId:Long,dstVertexId:Long,attr:Any)]组合元素： Triplet（源点SrcVertex+边Edge+目标点LstVertex）类似于RDD弹性的分布式的容错的2. why？

2021-08-01 21:43:49 151

原创 spark算子数据变形代码示例

import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Test04Rdd { //原始文件记录 case class Sale(shopId: Int, date: String, volume: Float) { def symd = s"${shopId}_${date.ymd}" def v = print(s"{$shopId\t$date\t$v

2021-07-28 08:26:07 102

原创 sparksql 使用spark 类似于 sql的命令操作文件

数据4,2024-02-08 11:56:00,154.562,2023-01-11 01:30:59,148.424,2023-03-28 08:01:19,105.364,2021-09-14 08:05:16,108.424,2024-01-03 01:22:22,206.465,2022-07-03 02:24:01,197.901,2021-12-03 06:42:50,107.834,2023-10-21 03:55:32,171.984,2023-06-13 05:02:08

2021-07-28 08:23:49 119

原创 spark centos7 虚拟机环境安装

centos7 spark配置环境变量为yarn模式启动export HADOOP_CONF_DIR=/opt/software/hadoop313/etc/hadoopexport SPARK_HOME=/opt/ software/ spark312export PATH=SPARKHOME/bin：SPARK_HOME/bin：SPARKHOME/bin：SPARK_HOME / sbin : $PATHImv spark-env.sh.template spark-env.shvi

2021-07-21 09:20:37 89

原创 scala实战同时实现同比和环比不使用样例类，使用原数据

我们又5年的数据文件4,2024-02-08 11:56:00,154.562,2023-01-11 01:30:59,148.424,2023-03-28 08:01:19,105.364,2021-09-14 08:05:16,108.424,2024-01-03 01:22:22,206.465,2022-07-03 02:24:01,197.901,2021-12-03 06:42:50,107.834,2023-10-21 03:55:32,171.984,2023-06-13

2021-07-19 21:01:28 100

原创 scalajdbc连接数据库初级版写了很多注释

main.resources.application.confdb.test.driver="com.mysql.jdbc.Driver"db.test.url="jdbc:mysql://192.168.75.245:3306/test?useSSL=false&characterEncoding=utf-8"db.test.username="root"db.test.password="Fang@123"代码package cn.kgc.scalajdbc.jdbcimpor

2021-07-18 19:27:44 77

原创 scala写jdbc连接数据库实现数据库的批量操作

结构pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-

2021-07-18 19:24:34 284

原创 scala语法：包，类和对象，文件，访问修饰符，属性，方法，构造方法，自定义方法，自定义函数，动态参数，隐式函数，泛型，集成和堕胎，动态混入，异常

scala语法//包//包申明package cn.kgc.scalaoop.test01 //一个文件一个模块package cn.kgc.scalaoop.test01{ //一个文件多个模块作用域}//包对象：相当于类 => 作用域(相对小)package object packobj{ //一个包多个模块作用域}//类和对象一个文件中只写一个类 => 类似于java同一个文件中同名的class(伴生类)和object(单例伴生对象：运行时由

2021-07-18 19:20:30 71

原创 scala高级特性以及代码实例：1隐式类，用特制去写隐式对象，隐式函数 2 制作数据 3表结构按题要求转变原表各个店铺每天的销售订单实现按天聚合按月分组按月算总的平均值等

scala高级特性集合：Array所有方法流：文件读写？？？ Source.fromFile(File path) PrintWriter println异常机制 Error 系统级异常（硬件级：如内存，网络，硬盘，CPU...) Exception 直接子类编译异常：反射 ClassNotFoundException IllegalArgmentException IllegalInvalcationException 线程

2021-07-18 19:06:10 184

原创 scala语法基础与数组方法

scala 语法基础// 安装与环境变量(windows | lunix)// idea插件安装与global libraries配置// scala vs java1、环境运行于jvm之上且兼容java4、特点优雅:一行抵多行速度快:静态编译方便融合hadoop生态圈:spark依赖scala5、字符串 “”+"" “”"…\n. …"""返回值 return 最后一行表达式lreturn访问符 default friendly default public

2021-07-12 16:08:09 114

原创 spring-mvc-mybatis

首先安装tomcat 在windows中注意:tomcat在安装的过程中出现的第一个路径不是tomcat安装路径而是jre的文件路径第2个路径才是tomcat的安装路径创建一个maven webapp工程进入maven 修改3个地方加载tomcat项目结构pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0

2021-07-07 17:48:28 85

原创 scala window安装 idea安装scala插件创建scala类简单命令运行 centos7虚拟机环境安装

将sacala的windows 版安装到 D:\d\tools\scala配置windows scala环境变量

2021-07-07 17:20:52 151

原创 centos7虚拟机sheel一键关闭服务脚本

cd ~/installsheelvim stop.cnfhbase->STOP->Dhbase,HMaster@stop-hbase.shzookeeper->STOP->zoo.cfg@zkServer.sh#stophive->KILL->HiveMetaStore,HiveServer2hadoop->STOP->NameNode,SecondaryNameNode,DataNode@stop-dfs.sh;ResourceManager,N

2021-07-06 19:00:01 363

原创 centos7虚拟机sheel一键启动服务脚本

cd ~/installsheelvim start.cnfhadoop->NameNode_SecondaryNameNode_DataNode_ResourceManager_NodeManager;start-dfs.sh_start-yarn.shhive->HiveMetaStore_HiveServer2;nohup#hive#--service#metastore>/dev/null#2>$1#&_nohup#hive#--service#hiveserv

2021-07-06 18:56:51 244

原创 mybatis连接数据库实现增删改查操作

框架pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-

2021-07-06 14:25:33 135 1

原创 frume avro支持断点续传实现从centos虚拟机传文件到hdfs上

新建配置文件:/opt/software/flume190/flume-conf-files/test_avro_file_hdfs.conf#组件声明a1.sources = s1a1.channels = c1a1.sinks = k1#初始化数据源a1.sources.s1.type = avro #avro文件类型a1.sources.s1.bind = 192.168.171.200 #ipa1.sources.s1.port = 7777 #端口号和命令对应a1.sourc

2021-07-05 19:41:15 225

原创将centos7虚拟机“文件中的表信息“用flume导入到hbase表中

hbase中键个表create ‘test:stuflumehbasesink’,‘base’创建hbase配置文件test06_taildir_file_hive.conf#initializea1.sources = s1a1.channels = c1a1.sinks = k1#taildir sourcea1.sources.s1.type = taildira1.sources.s1.filegroups = f1a1.sources.s1.filegroups.f1 = /

2021-07-05 19:18:30 89

原创将centos7虚拟机“文件中的表信息“用flume导入到hive表中

flume hive sink要求hive的表格式hive tableparitionbucketorc查看端口#netstat -nl|grep 9083 :metastore服务flume对hive hcatalog依赖cd /opt/software/flume190/lib/cp /opt/software/hive312/hcatalog/share/hcatalog/*.jar ./开启hive事务支持在hive中运行以下命令SET hive.support.concu

2021-07-05 19:11:47 115

原创把centos7中的“2个文件的信息“用flume批量导入到hdfs文件中

新建配置文件:vim test_taildir_file_hdfs.conf 位置:#组件声明a1.sources = s1a1.channels = c1a1.sinks = k1#初始化数据源a1.sources.s1.type = taildira1.sources.s1.filegroups = f1 f2 #两个文件用空格隔开a1.sources.s1.filegroups.f1 = /root/data/flume/tail01/prolog.*\\.log #这是虚拟机

2021-07-05 19:06:58 63

原创 Hbase底层设计 hbase命令

#hbase web : http://20.0.0.180:60010/#hbase构成服务HMaster( 1)为Region server分配region(2)负责Region server的负载均衡(3）发现失效的Regionserver并重新分配其上的region( 4)管理用户对table的增删改操作HRegionserver(1) region io ->hdfs。(2 ) region splitQuorumPeerMain/ hbasebackup-masters

2021-07-02 19:51:10 123 4

原创 flume安装 gcc安装 netcat安装一:flume实现控制台连接文件二:flume将日志文件上传到hdfs中

flume安装cd /opt/software/flume190/confmv flume-env.sh.template flume-env.shexport JAVA_HOME=/opt/software/jdkvim /etc/profile.d/myenv.sh#flumeexport FLUME_HOME=/opt/software/flume190export PATH=FLUMEHOME/bin:FLUME_HOME/bin:FLUMEHOME/bin:PATHgoogle的

2021-07-02 19:43:47 71

原创 jdbc实现 mysql 表导入windows文件在导入hbase 并实现打胖包到centos7环境中运行

此项目由2部分组成配置文件1配置文件的位置 D:\d\笔记目录\jdbchbase\datasource.properties2配置文件的内容#java连接hbase配置hbase.zookeeper.quorum=192.168.131.200#java连接mysql配置mysql.driver=com.mysql.jdbc.Drivermysql.url=jdbc:mysql://192.168.131.200:3306/testmysql.username=rootmysql.

2021-07-01 20:25:48 106 2

原创 sheel命令 centos7 环境 zookeeper357自动安装

/opt/download/zookeeperinstall/zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimit=10# The number of ticks that can pass between # sending a request and gettin

2021-07-01 19:54:52 67

原创 java实现简单的生成行为日志文件 (二)将java行为日志放到centos7环境中运行

打胖包第二步 :上述的行为日志的开启关闭时荣logger.properties 中的goon=true|false 来决定的还原logger.properties第三步到虚拟机centos7 中新建目录并把胖包拖拽进入虚拟机中第四步使用命令运行产生行为日志java -jar prolog-1.0-jar-with-dependencies.jar /root/data/flume logconf/logger.properties第五步 vim logger.properties

2021-07-01 15:04:24 179

原创 java实现简单的生成行为日志文件 (一)

第一步在windows中创建目录第二部写properties 配置信息log4j.rootLogger=INFO,Rlog4j.appender.R=org.apache.log4j.RollingFileAppenderlog4j.appender.R.File=${flume.dir}/prolog.loglog4j.appender.R.MaxFileSize=512MBlog4j.appender.R.MaxBackupIndex=40log4j.appender.R.lay

2021-07-01 14:49:08 668

原创 sqoop安装 sqoop命令实现mysql hbase hive之间的数据转换 sqoop job命令

#o、角解压、重命名、配置环境变量并激活exort LOGD工R=$sQOOP_ HOME / logs#1、资源拷贝cd / opt/ software/ sqoop146/ lib/find /opt/software/hive312/ -name 'mysql大.jar'cp /opt/software/hive312/lib/mysql-connector-java-5.1.48.jar ./cp /opt/software/hadoop313/share/hadoop/common/

2021-07-01 14:28:43 73

原创 hbase的常用命令

HBase常用命令进入shell[hadoop@indb-3-136-hzifc bin]$ echo $HBASE_HOME/data/program/hbase[hadoop@indb-3-136-hzifc bin]$ /data/program/hbase/bin/hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/data/program/hba

2021-06-29 15:22:21 65

原创 hive优化

什么是数据倾斜大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况#问题描述：倾斜小文件 join 大文件内容倾斜JOBS多joinunionsub_querycount(distinct)Task过多 #解决方案：整体考虑建模分层=>轻量聚合分区=>避免交换压缩=>减少体量配置优化合理减少job，并行无依赖job，增加jvm重用合理控制mapper和redu

2021-06-29 14:58:35 179

原创 sheel脚本 centos7环境自动安装hbase

centos7 中 /opt/download/hbaseinstall 目录下放两个文件并配置好hbase-env.sh#!/usr/bin/env bash##/**# * Licensed to the Apache Software Foundation (ASF) under one# * or more contributor license agreements. See the NOTICE file# * distributed with this work for ad

2021-06-25 18:48:30 289

原创 sheel脚本 centos7环境自动安装 zeppelin

在centos7的/opt/download/zeppelininstall目录下提前放好两个文件并配置好参数zeppelin-env.sh#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional in

2021-06-25 13:57:00 395

原创 sheel脚本 sentos7环境 hive自动安装

/opt/download/hiveinstall 中有2个准备好的文件运行前配置好参数hive-site.xml<?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.o

2021-06-25 08:45:53 71

原创 sheel脚本 centos环境自动安装hadoop

1提前在/opt/download/hadoopinstall/目录下存放好4个配置文件安装前提前修改好里面的参数第一个文件 core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apache License, Version 2.0 (the "Lic

2021-06-25 08:35:00 110

原创 sheel命令 vmware环境服务mysql自动安装

#!/bin/bash#此文件安装完mysql 要配置mysql密码重设'12345678' #启动mysql #确定密码和hive-site.xml 文件中输入的密码一致 #如果没有成功用grep 'temporary password' /var/log/mysqld.log #set global validate_password_policy=0; #alter user 'root'@'localhost' identified by 'mima' #

2021-06-25 08:01:38 62

原创 sheel 命令 vmware环境 jdk一键安装

#!/bin/bash#此文件/opt/download 目录下没有jdk无法安装#也仅仅只是删除/opt/software目录下的jdk 如果jdk在其他目录自己手动删除#有时运行完毕需要重新 source /etc/profile ENV_DIR='/etc/profile.d/'#绿色安装根目录SOFTWARE_DIR='/opt/software/'#安装源文件目录DOWNLOAD_DIR='/opt/download/'#进入就先进行配置文件的判断RST=`ls $

2021-06-25 07:59:13 61

原创 hive命令

#4、mysql驱动拷贝在D:\Maven\jar_mgr\apache-maven-3.5.4\repository\mysql\mysql-connector-java\5.1.47找到mysql-connector-java-5.1.47.jar包将其复制到/opt/software/hive312/lib下#5、初始化cd /opt/software/hive312./schematool -dbType mysql -initSchema#6、启动关闭hive服务#[后台启动]noh

2021-06-25 07:53:58 752

原创 map-reduce的五次io

########################## mapreduce 原理（五次IO） ############################### 第一次IO：map task读入文件：调用Inputformat读入文件进行split逻辑切片——>recordreader——>read()每次读入一行。返回值是(k,v)形式，key为行号偏移量，value为行的内容。一个split对应一个map，切片数量的计算公式：splitSize = Math.max(minSize, M

2021-06-24 20:36:04 339

原创 hadoop安装

################################ HADOOP 安装 ####################################将hadoop压缩包添加到/opt/download/hadoop中#0、检查/etc/hosts中ip hostname 映射ip addrhostname#1、本机免密登录#生成秘钥cd ~#-t 显示加密过程ssh-keygen -t rsa #回车回车cd .ssh#切换root用户ssh root@singleren

2021-06-24 20:33:15 54

原创 sheel命令

########################## SHEEL 命令 ########################查看 #查看目录 [DIR] 缺省默认为查看当前目录ls [DTR] #查看目录中的内容简单列表ll [DIR] #查看详情列表ls -la [DIR] #查看所有内容#查看文件输出至控制台=>标准输出cat FILE_PATH #查看文件中的所有内容cat -n FILE_PATH #给内容加行号head -n FILE_PATH #查看

2021-06-24 20:31:05 430

空空如也

空空如也