自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

转载 Lunix下大数据相关软件安装及配置(更新至Kafka)

https://blog.csdn.net/sweet19920711/article/details/118309793

2021-08-11 15:39:42 113

原创 萌小宠项目————环境搭建(一)

大数据环境搭建一、Docker安装1.1 Centos Docker安装# 镜像比较大, 需要准备一个网络稳定的环境# 其中--mirror Aliyun代表使用阿里源curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun1.2 Ubuntu Docker安装【推荐】curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun上面运行不成功

2021-08-02 16:55:16 183

原创 sparkgraph

什么是sparkgragh : 它是为了为用户建立关系的视图SparkGraph图计算基础篇1. what?表示数据关系的数据结构基本元素: 点Vertex,边EdgeVertex[(VertexId:Long,VertexAttr:Any)]Edge[(srcVertexId:Long,dstVertexId:Long,attr:Any)]组合元素: Triplet(源点SrcVertex+边Edge+目标点LstVertex)类似于RDD弹性的分布式的容错的2. why?

2021-08-01 21:43:49 151

原创 spark算子数据变形代码示例

import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Test04Rdd { //原始文件记录 case class Sale(shopId: Int, date: String, volume: Float) { def symd = s"${shopId}_${date.ymd}" def v = print(s"{$shopId\t$date\t$v

2021-07-28 08:26:07 102

原创 sparksql 使用spark 类似于 sql的命令 操作文件

数据4,2024-02-08 11:56:00,154.562,2023-01-11 01:30:59,148.424,2023-03-28 08:01:19,105.364,2021-09-14 08:05:16,108.424,2024-01-03 01:22:22,206.465,2022-07-03 02:24:01,197.901,2021-12-03 06:42:50,107.834,2023-10-21 03:55:32,171.984,2023-06-13 05:02:08

2021-07-28 08:23:49 119

原创 spark centos7 虚拟机环境 安装

centos7 spark配置环境变量为yarn模式启动export HADOOP_CONF_DIR=/opt/software/hadoop313/etc/hadoopexport SPARK_HOME=/opt/ software/ spark312export PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKH​OME/bin:SPARK_HOME / sbin : $PATHImv spark-env.sh.template spark-env.shvi

2021-07-21 09:20:37 89

原创 scala实战同时实现同比和环比 不使用样例类,使用原数据

我们又5年的数据文件4,2024-02-08 11:56:00,154.562,2023-01-11 01:30:59,148.424,2023-03-28 08:01:19,105.364,2021-09-14 08:05:16,108.424,2024-01-03 01:22:22,206.465,2022-07-03 02:24:01,197.901,2021-12-03 06:42:50,107.834,2023-10-21 03:55:32,171.984,2023-06-13

2021-07-19 21:01:28 100

原创 scalajdbc连接数据库 初级版 写了很多注释

main.resources.application.confdb.test.driver="com.mysql.jdbc.Driver"db.test.url="jdbc:mysql://192.168.75.245:3306/test?useSSL=false&characterEncoding=utf-8"db.test.username="root"db.test.password="Fang@123"代码package cn.kgc.scalajdbc.jdbcimpor

2021-07-18 19:27:44 77

原创 scala写jdbc连接数据库 实现数据库的批量操作

结构pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-

2021-07-18 19:24:34 284

原创 scala语法:包,类和对象,文件,访问修饰符,属性,方法,构造方法,自定义方法,自定义函数,动态参数,隐式函数,泛型,集成和堕胎,动态混入,异常

scala语法//包//包申明package cn.kgc.scalaoop.test01 //一个文件一个模块package cn.kgc.scalaoop.test01{ //一个文件多个模块 作用域}//包对象:相当于类 => 作用域(相对小)package object packobj{ //一个包多个模块 作用域}//类和对象一个文件中只写一个类 => 类似于java同一个文件中同名的class(伴生类)和object(单例伴生对象:运行时由

2021-07-18 19:20:30 71

原创 scala高级特性 以及代码实例:1隐式类,用特制去写隐式对象,隐式函数 2 制作数据 3表结构按题要求转变 原表各个店铺每天的销售订单 实现 按天聚合 按月分组 按月 算总的平均值 等

scala高级特性集合:Array所有方法流:文件读写??? Source.fromFile(File path) PrintWriter println异常机制 Error 系统级异常(硬件级:如内存,网络,硬盘,CPU...) Exception 直接子类 编译异常: 反射 ClassNotFoundException IllegalArgmentException IllegalInvalcationException 线程

2021-07-18 19:06:10 184

原创 scala语法基础 与 数组方法

scala 语法基础// 安装与环境变量(windows | lunix)// idea插件安装与global libraries配置// scala vs java1、环境运行于jvm之上且兼容java4、特点优雅:一行抵多行速度快:静态编译方便融合hadoop生态圈:spark依赖scala5、字符串 “”+"" “”"…\n. …"""返回值 return 最后一行表达式lreturn访问符 default friendly default public

2021-07-12 16:08:09 114

原创 spring-mvc-mybatis

首先安装tomcat 在windows中注意:tomcat在安装的过程中出现的第一个路径不是tomcat安装路径 而是jre的文件路径 第2个路径才是tomcat的安装路径创建一个maven webapp工程进入maven 修改3个地方加载tomcat项目结构pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0

2021-07-07 17:48:28 85

原创 scala window安装 idea安装scala插件 创建scala类 简单命令运行 centos7虚拟机环境安装

将sacala的windows 版 安装到 D:\d\tools\scala配置windows scala环境变量

2021-07-07 17:20:52 151

原创 centos7虚拟机sheel一键关闭服务脚本

cd ~/installsheelvim stop.cnfhbase->STOP->Dhbase,HMaster@stop-hbase.shzookeeper->STOP->zoo.cfg@zkServer.sh#stophive->KILL->HiveMetaStore,HiveServer2hadoop->STOP->NameNode,SecondaryNameNode,DataNode@stop-dfs.sh;ResourceManager,N

2021-07-06 19:00:01 363

原创 centos7虚拟机sheel一键启动服务脚本

cd ~/installsheelvim start.cnfhadoop->NameNode_SecondaryNameNode_DataNode_ResourceManager_NodeManager;start-dfs.sh_start-yarn.shhive->HiveMetaStore_HiveServer2;nohup#hive#--service#metastore>/dev/null#2>$1#&_nohup#hive#--service#hiveserv

2021-07-06 18:56:51 244

原创 mybatis连接数据库 实现增删改查操作

框架pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-

2021-07-06 14:25:33 135 1

原创 frume avro支持断点续传 实现从centos虚拟机 传文件到hdfs上

新建配置文件:/opt/software/flume190/flume-conf-files/test_avro_file_hdfs.conf#组件声明a1.sources = s1a1.channels = c1a1.sinks = k1#初始化数据源a1.sources.s1.type = avro #avro文件类型a1.sources.s1.bind = 192.168.171.200 #ipa1.sources.s1.port = 7777 #端口号 和命令对应a1.sourc

2021-07-05 19:41:15 225

原创 将centos7虚拟机“文件中的表信息“用flume导入到hbase表中

hbase中键个表create ‘test:stuflumehbasesink’,‘base’创建hbase配置文件test06_taildir_file_hive.conf#initializea1.sources = s1a1.channels = c1a1.sinks = k1#taildir sourcea1.sources.s1.type = taildira1.sources.s1.filegroups = f1a1.sources.s1.filegroups.f1 = /

2021-07-05 19:18:30 89

原创 将centos7虚拟机“文件中的表信息“用flume导入到hive表中

flume hive sink要求hive的表格式hive tableparitionbucketorc查看端口#netstat -nl|grep 9083 :metastore服务flume对hive hcatalog依赖cd /opt/software/flume190/lib/cp /opt/software/hive312/hcatalog/share/hcatalog/*.jar ./开启hive事务支持 在hive中运行以下命令SET hive.support.concu

2021-07-05 19:11:47 115

原创 把centos7中的“2个文件的信息“用flume批量导入到hdfs文件中

新建配置文件:vim test_taildir_file_hdfs.conf 位置:#组件声明a1.sources = s1a1.channels = c1a1.sinks = k1#初始化数据源a1.sources.s1.type = taildira1.sources.s1.filegroups = f1 f2 #两个文件用空格隔开a1.sources.s1.filegroups.f1 = /root/data/flume/tail01/prolog.*\\.log #这是虚拟机

2021-07-05 19:06:58 63

原创 Hbase底层设计 hbase命令

#hbase web : http://20.0.0.180:60010/#hbase构成服务HMaster( 1)为Region server分配region(2)负责Region server的负载均衡(3)发现失效的Regionserver并重新分配其上的region( 4)管理用户对table的增删改操作HRegionserver(1) region io ->hdfs。(2 ) region splitQuorumPeerMain/ hbasebackup-masters

2021-07-02 19:51:10 123 4

原创 flume安装 gcc安装 netcat安装 一:flume实现控制台连接文件 二:flume将日志文件上传到hdfs中

flume安装cd /opt/software/flume190/confmv flume-env.sh.template flume-env.shexport JAVA_HOME=/opt/software/jdkvim /etc/profile.d/myenv.sh#flumeexport FLUME_HOME=/opt/software/flume190export PATH=FLUMEHOME/bin:FLUME_HOME/bin:FLUMEH​OME/bin:PATHgoogle的

2021-07-02 19:43:47 71

原创 jdbc实现 mysql 表导入windows文件在导入hbase 并实现打胖包到centos7环境中运行

此项目由2部分组成配置文件1配置文件的位置 D:\d\笔记目录\jdbchbase\datasource.properties2配置文件的内容#java连接hbase配置hbase.zookeeper.quorum=192.168.131.200#java连接mysql配置mysql.driver=com.mysql.jdbc.Drivermysql.url=jdbc:mysql://192.168.131.200:3306/testmysql.username=rootmysql.

2021-07-01 20:25:48 106 2

原创 sheel命令 centos7 环境 zookeeper357自动安装

/opt/download/zookeeperinstall/zoo.cfg# The number of milliseconds of each ticktickTime=2000# The number of ticks that the initial # synchronization phase can takeinitLimit=10# The number of ticks that can pass between # sending a request and gettin

2021-07-01 19:54:52 67

原创 java实现简单的生成行为日志文件 (二)将java行为日志放到centos7环境中运行

打胖包第二步 :上述的行为日志的开启关闭时荣logger.properties 中的goon=true|false 来决定的 还原logger.properties第三步 到虚拟机centos7 中新建目录并把胖包拖拽进入虚拟机中第四步 使用命令运行产生行为日志java -jar prolog-1.0-jar-with-dependencies.jar /root/data/flume logconf/logger.properties第五步 vim logger.properties

2021-07-01 15:04:24 179

原创 java实现简单的生成行为日志文件 (一)

第一步 在windows中创建目录第二部 写properties 配置信息log4j.rootLogger=INFO,Rlog4j.appender.R=org.apache.log4j.RollingFileAppenderlog4j.appender.R.File=${flume.dir}/prolog.loglog4j.appender.R.MaxFileSize=512MBlog4j.appender.R.MaxBackupIndex=40log4j.appender.R.lay

2021-07-01 14:49:08 668

原创 sqoop安装 sqoop命令 实现mysql hbase hive之间的数据转换 sqoop job命令

#o、角解压、重命名、配置环境变量并激活exort LOGD工R=$sQOOP_ HOME / logs#1、资源拷贝cd / opt/ software/ sqoop146/ lib/find /opt/software/hive312/ -name 'mysql大.jar'cp /opt/software/hive312/lib/mysql-connector-java-5.1.48.jar ./cp /opt/software/hadoop313/share/hadoop/common/

2021-07-01 14:28:43 73

原创 hbase的常用命令

HBase常用命令进入shell[hadoop@indb-3-136-hzifc bin]$ echo $HBASE_HOME/data/program/hbase[hadoop@indb-3-136-hzifc bin]$ /data/program/hbase/bin/hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/data/program/hba

2021-06-29 15:22:21 65

原创 hive优化

什么是数据倾斜大量的相同key被partition分配到一个分区里,造成了’一个人累死,其他人闲死’的情况#问题描述:倾斜小文件 join 大文件内容倾斜JOBS多joinunionsub_querycount(distinct)Task过多 #解决方案:整体考虑 建模 分层=>轻量聚合 分区=>避免交换 压缩=>减少体量 配置优化 合理减少job,并行无依赖job,增加jvm重用 合理控制mapper和redu

2021-06-29 14:58:35 179

原创 sheel脚本 centos7环境 自动安装hbase

centos7 中 /opt/download/hbaseinstall 目录下放两个文件 并配置好hbase-env.sh#!/usr/bin/env bash##/**# * Licensed to the Apache Software Foundation (ASF) under one# * or more contributor license agreements. See the NOTICE file# * distributed with this work for ad

2021-06-25 18:48:30 289

原创 sheel脚本 centos7环境 自动安装 zeppelin

在centos7的/opt/download/zeppelininstall目录下提前放好两个文件并配置好参数zeppelin-env.sh#!/bin/bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional in

2021-06-25 13:57:00 395

原创 sheel脚本 sentos7环境 hive自动安装

/opt/download/hiveinstall 中有2个准备好的文件 运行前配置好参数hive-site.xml<?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.o

2021-06-25 08:45:53 71

原创 sheel脚本 centos环境 自动安装hadoop

1提前在/opt/download/hadoopinstall/目录下存放好4个配置文件 安装前提前修改好里面的参数第一个文件 core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apache License, Version 2.0 (the "Lic

2021-06-25 08:35:00 110

原创 sheel命令 vmware环境 服务mysql自动安装

#!/bin/bash#此文件安装完mysql 要 配置mysql密码重设'12345678' #启动mysql #确定密码和hive-site.xml 文件中输入的密码一致 #如果没有成功 用grep 'temporary password' /var/log/mysqld.log #set global validate_password_policy=0; #alter user 'root'@'localhost' identified by 'mima' #

2021-06-25 08:01:38 62

原创 sheel 命令 vmware环境 jdk一键安装

#!/bin/bash#此文件/opt/download 目录下没有jdk无法安装#也仅仅只是删除/opt/software目录下的jdk 如果jdk在其他目录 自己手动删除#有时运行完毕需要重新 source /etc/profile ENV_DIR='/etc/profile.d/'#绿色安装根目录SOFTWARE_DIR='/opt/software/'#安装源文件目录DOWNLOAD_DIR='/opt/download/'#进入就先进行配置文件的判断RST=`ls $

2021-06-25 07:59:13 61

原创 hive命令

#4、mysql驱动拷贝在D:\Maven\jar_mgr\apache-maven-3.5.4\repository\mysql\mysql-connector-java\5.1.47找到mysql-connector-java-5.1.47.jar包将其复制到/opt/software/hive312/lib下#5、初始化cd /opt/software/hive312./schematool -dbType mysql -initSchema#6、启动关闭hive服务#[后台启动]noh

2021-06-25 07:53:58 752

原创 map-reduce的五次io

########################## mapreduce 原理 (五次IO) ############################### 第一次IO:map task读入文件:调用Inputformat读入文件进行split逻辑切片——>recordreader——>read()每次读入一行。返回值是(k,v)形式,key为行号偏移量,value为行的内容。一个split对应一个map,切片数量的计算公式:splitSize = Math.max(minSize, M

2021-06-24 20:36:04 339

原创 hadoop安装

################################ HADOOP 安装 ####################################将hadoop压缩包添加到/opt/download/hadoop中#0、检查/etc/hosts中ip hostname 映射ip addrhostname#1、本机免密登录#生成秘钥cd ~#-t 显示加密过程ssh-keygen -t rsa #回车回车cd .ssh#切换root用户ssh root@singleren

2021-06-24 20:33:15 54

原创 sheel命令

########################## SHEEL 命令 ########################查看 #查看目录 [DIR] 缺省默认为查看当前目录ls [DTR] #查看目录中的内容简单列表ll [DIR] #查看详情列表ls -la [DIR] #查看所有内容#查看文件 输出至控制台=>标准输出cat FILE_PATH #查看文件中的所有内容cat -n FILE_PATH #给内容加行号head -n FILE_PATH #查看

2021-06-24 20:31:05 430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除