- 博客(37)
- 资源 (1)
- 收藏
- 关注
原创 02 ,sqs 原理 :
1 ,本节内容 :本节描述 Amazon SQS 队列的类型及其基本属性。它还描述了队列和消息的标识符以及各种队列和消息管理工作流程。2 ,架构图示 :3 ,架构说明 :1 ,创建队列 : sqs 服务器,会创建很多冗余,目的是保证数据的安全性。2 ,可见性超时 : 在一定时间范围内,其它的使用者,看不到这条消息,但是消息仍然保留在队列中。3 ,删除消息 : 处理后,删除这条消息,以...
2019-12-30 16:43:22 1101
原创 01 ,sqs 入门 :控制台操作
一 ,相关信息 :1 ,sqs 管理页面 :https://cn-northwest-1.console.amazonaws.cn/sqs/home?region=cn-northwest-12 ,sqs 文档 :https://docs.amazonaws.cn/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html二 ,...
2019-12-30 15:21:20 826
原创 3 ,登录页面,Servlet 回顾,jdbc 回顾,ajax 回顾 ,FastJson 使用,一些异常的处理
1 ,登录页面 :http://localhost:8080/lifecycle/2 ,注册页面 :3 ,把 Tomcat 中的包引入到 Idea :tomcat 与 servlet 的版本对应关系 : https://blog.csdn.net/majiang26/article/details/80052346我们的 tomcat 版本 : 8.5.42所以,我们需要的 Se...
2019-12-26 18:05:13 206
原创 2 ,jQueryUI 研究 :手册网址
1 ,引入 :引入 :<link rel="stylesheet" href="web_page/jqueryui/jquery-ui.css" /><script src="web_page/jqueryui/external/jquery/jquery.js"></script><script src="web_page/jqueryui/...
2019-12-26 14:59:35 141
原创 1 ,idea,maven ,web 项目 :
1 ,在 idea 建 web 项目 :建项目 : new - project - maven操作 :下一步 - 下一步 - 完成等着,会下载一些东西2 ,安装 tomcat 插件 :file - settings - plugins - 搜索 tomcat :- 勾选 - install from jetbrains plugin - install -apply - ok ...
2019-12-26 12:48:48 83
原创 4,串行与并行交织 : 第一批集群并行,第二批集群并行,集群间串行
1 ,目的 :先开两个集群 ( a , b )分别输出 : a1,a2,b1,b2等 a,b 集群关闭再开两个集群 ( c,d )分别输出 : c1,c2,d1,d22 ,技术核心 : 监控集群状态核心对象 : DescribeClusterResult作用 : 集群状态描述类3 ,程序结构 :4 ,代码 :package lifeCycle02_Cluster;...
2019-12-25 19:00:03 361
原创 3,集群内串行 : 成功
package test01;import com.amazonaws.services.elasticmapreduce.model.StepConfig;import lifeCycle01_Tool.Tool01_Cluster;import lifeCycle01_Tool.Tool02_Step;import java.util.ArrayList;import java.u...
2019-12-25 14:50:14 203
原创 2 ,aws sdk for java :启动 emr ,执行步骤,执行后关闭,2 个步骤执行后关闭
1 ,写一个 spark 程序 :目的 : 测试功能 : 把 sql 结果存储进指定的文件夹执行 :spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle01_tool.Tool10_sq...
2019-12-25 14:48:48 444
原创 1 ,aws java sdk,启动 emr
1 ,去 github 下载我们需要的代码 :本地建文件夹 :E:\emrCode建库 :1 ,进去2 ,右键 - git bash here3 ,git init连接远程仓库 :git remote add -f emrCode https://github.com/aws/aws-sdk-java.git...
2019-12-23 22:13:37 632
原创 7 ,github 账号注册,上传代码到公司的 gitLab
1 ,网址 :https://github.com/2 ,登录 :3 ,将本地库推送到远程库 : ( 必须先拉去,再推送 )查看所有远程地址别名 :git remote -v创建远程库别名 :git remote add origin http://fulong@prj2.lifecycle.cn/da/data_platform.git拉取 :git pull...
2019-12-23 17:15:34 436
原创 6 ,git 原理 :
1 ,hash 算法 :目的 : 明文 -> 密文加密算法 : hash 算法hash 算法特点 : 不管原文多长,得到的结果长度一致2 ,git 如何保证数据的完整性 :3 ,版本管理机制 :svn : 增量式版本控制每个版本都保存着,修改过的那一点操作git : 全量式版本管理文件快照保存数据如果没有修改,指针指向之前的版本每个文件都会做一次 hash ,得...
2019-12-23 15:39:36 97
原创 5,分支管理,分支操作,分支合并
1 ,分支是什么 :多线操作,多个任务2 ,默认提供主干分支 :master3 ,作用 :各个分支,齐头并进各自安好,主干合并4 ,自己新建分支 :hot_fix查看所有分支 : git branch -v新建分支( 热修复 ) : git branch hot_fix切换到分支 : git checkout hot_fix我们当前所在分支 : 括号中显示的就是当前所...
2019-12-23 15:19:14 171
原创 4 ,版本的前进和后退 ,查看文档,hard,soft,mixed ,删除文件找回 ,比较文件差异
1 ,版本日志 :git log2 ,版本控制的原理移动 head 指针3 ,为了测试 : 弄出 4 个版本上传 :修改文件,上传再次修改文件,上传git commit -a -m "forth"查看日志 :1 ,普通打印 :git log2 ,漂亮打印 :git log --pretty=oneline3 ,如果日志超过了一页 :空格:下一页b:上...
2019-12-23 12:20:23 143
原创 3 ,git 命令行 : 本地库操作,上传
1 ,查看状态 :git status2 ,新建一个文件 :aa.txt3 ,查看状态 :git status发现一个未追踪的文件 : 也就是我们刚刚创建的那个文件4 ,工作区 -> 暂存区 :git add aa.txt5 ,暂存区 : 移除文件git rm --cached aa.txt6 ,提交 : 暂存区 -> 本地库提交 :git commit...
2019-12-23 11:40:49 88
原创 2 ,git 命令行 : 本地库,设置签名,本地库签名,全局签名
1 ,本地库初始化 :建一个文件夹 :D:\space\02_git\01_gitTest01去到这个文件夹中 : 右键 - git bash here看到 git 命令行初始化本地库 :lspwdgit init效果 : 出现一个新的目录 ( 隐藏目录 ).git 目录中存储的是什么 :与仓库相关的信息,不要删除2 ,设置签名 :1. 用户名 : git con...
2019-12-23 10:56:38 529
原创 1 ,git 简介,git 安装与卸载,git 结构
1 ,windows 卸载 git :用 360 卸载 git :2 ,git 是什么 :版本控制工具,类似 SVN3 ,svn 原理 :每次保存一点点,改动的地方4 ,git 原理 :每次保存文件系统的快照5 ,git 官网 :https://git-scm.com/6 ,安装 :双击 : Git-2.17.0-64-bit.exe选择安装路径下一步 - 下一步...
2019-12-23 09:49:16 2244 1
原创 02 ,lambda ,S3 触发 ,打印 ,cloudWathch 监控
1 ,删除原 lambda :删除函数 :找到桶,属性 :删除事件,保存 :2 ,目的 :监听某个 S3 目录。如果这个 S3 有新创建的文件夹,或者上传的文件。就打印这个文件的名字。3 ,创建 lambda :创建 :从头创建 :基本信息 :创建函数添加触发器 :4 ,写代码 :pom.xml :<?xml version="1....
2019-12-17 18:01:03 296
原创 01 ,lambda 概览 :
1 ,使用控制台创建 Lambda 函数进入控制台 。创建函数。输入函数名字。运行环境 : java8创建函数。2 ,Designer 作用 :触发器。设置权限。3 ,触发器 : 不可重复如果 /a 被监听那么 /a/b 不能被监听4 ,删除触发器 :查看目录属性 :删除事件,保存 :5 ,创建触发器 :...
2019-12-16 17:34:15 74
原创 10 ,hive 函数 : 数学,字符串,时间
一 ,数学函数 :round,ceil,floor1 ,四舍五入 : roundhive> select round(1.64567,2);1.652 ,向上取整,向下取整 :ceil ,floorhive> select floor(1.6);1hive> select ceil(1.6);23 ,四舍五入到百位 : round -2hive> s...
2019-12-15 14:32:56 218
原创 09 ,视图 :
1 ,视图 :视图是 : 虚拟表真实表 : 物理表2 ,跨表 :一个视图 : 可以跨越多张表3 ,如果原表的数据变多 :视图的数据 : 也变多4 ,创建视图 :create view stu_view as select * from student;5 ,查询视图 :select * from stu_view;6 ,原表数据新增 :insert into stu...
2019-12-15 13:03:50 109
原创 08 ,桶表 :
1 ,桶表简介 :用列的 hashCode 取值。用哈希值分文件。同一个哈希值的数据存放在一个文件中。2 ,桶表 - 内部表 :桶表只能是内部表。桶表的数据是后导入的3 ,建表 : 内部,分桶,默认分隔符,name 分桶,5 个桶sql :create table student (sid string,sname string,sage string) clust...
2019-12-15 12:54:39 111
原创 06 ,基础操作 : 转 parquet ,查看 parquet ,转 csv ,查看 csv ,总条数
1 ,count csv :命令 :spark-submit --master yarn --num-executors 5 --executor-cores 3 --executor-memory 6144m --deploy-mode client --class lifecycle01_tool.Tool02_CountCsv s3://lifecyclebigdata/dataWa...
2019-12-14 18:43:39 3034
原创 07 ,外部表,文本文件,parquet-snappy 文件
一 ,概览 :1 ,加载数据和创建表同时完成。2 ,先有数据,后又表。3 ,链接 : 外部表只是一个链接4 ,不需要移动数据 :他只是把表结构映射到数据文件,不需要移动数据到自己的目录下。二 ,外部表 ,文本文件 :1 ,建三个文件 :aa.txt :1,aa,102,bb,203,cc,30bb.txt :4,dd,505,ee,12106,ff,ds...
2019-12-13 17:51:57 667
原创 05 ,内部表,分区表 :分文件夹
1 ,分区表 : partition1 ,意义 : 每个分区,对应一个子目录2 ,目的 : 提高查询效率2 ,建表 : 内部,分隔符,parquet,snappy,分区 :create table par_test(id int,name string) partitioned by (sex string) row format delimited fields terminated...
2019-12-13 17:26:04 254
原创 04 ,默认创建内部表,查询创建内部表,查看表是内部还是外部
1 ,默认创建的表是 : 内部表create table t1(id int,name string);2 ,查看表是不是内部表 :命令 :desc extended t1;有效信息 : tableType:MANAGED_TABLE全部信息 :Detailed Table Information Table(tableName:t1, dbName:default, o...
2019-12-13 14:19:17 432
原创 00 ,数据仓库,hive 命令行,查库,查表,查函数
1 ,特点 :面向主题 ( 使用数据时,关心的方向 )多方集成 ( 数据来自很多方面 )不可改变 ( 我们不会做 update 操作,只做查询 )2 ,进入命令行 :hive3 ,退出命令行 :quit;4 ,所有库 :show databases;5 ,建库 :create database aa;6 ,删库 :drop database aa;7 ,使用库 :...
2019-12-11 22:35:06 330 1
原创 03 ,内部表,建表,查看表结构,导入数据,支持 snappy ,支持 parquet ,spark( 转换 snappy,parquet )
1 ,hive 中的表的构成 :真实数据 : 以文件的形式,存储在 hdfs / s3 上元数据 : 将表映射到文件,元数据存储在 mysql / oracle 中2 ,内部表 :hive 自己维护真实数据删除 : 元数据删除,真实数据删除3 ,外部表 :hdfs / s3 维护真实数据删除 : 只删除元数据,不删除真实数据4 ,...
2019-12-11 22:00:16 965
原创 02,spark on hive :数据类型,hive 控制台,库操作
1 ,看看 parquet :spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.showCount.LookParquet s3://lifecyclebigdata/dataWareH...
2019-12-11 17:33:55 317
原创 20 ,排错 :
1 ,执行 :spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle00_all_need.Need03_need04_seasonYeji s3://lifecyclebigdata/dataWar...
2019-12-11 14:58:14 114
原创 19 ,spark on hive 使用 :
1 ,Spark on Hive:Hive 只作为储存角色,Spark 负责 sql 解析优化,执行。2 ,
2019-12-11 09:55:36 202
原创 15 ,库存 :
1 ,库存流水,转换格式 :spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle01_tool.ParseCsvToParquet s3://lifecyclebigdata/dataWareH...
2019-12-10 15:50:05 223
原创 16 ,进货 :
1 ,进货流水 :349234949 ( 3.4 亿 )+-----+--------------+--------+----------+--------+--------+-----------+----+----+--------+------+|区域 |店主 |门店类型|门店代码 |进货月份|进货日期|款号 |颜色|尺码|进货类型|进货量|+-----...
2019-12-10 15:49:54 158
原创 01 ,VPC - MYSQL - HIVE 学习 :
1 ,vpc :名字 :dftvpcID : vpc-fbd477922 ,子网 : dft03 ( subnet-9375d6fa )dft01dft02dft033 ,安全组 : j ( sg-3bc38a52 )4 ,创建 mysql :msql 版本 : 5.7.22vpc : vpc-fbd47792子网组 : default安全组 : defaul...
2019-12-10 11:00:28 183
原创 04 ,aws-hive 连接 mysql 数据库 :
1 ,配置文件 : hiveConfiguration.json[{ "Classification": "hive-site", "Properties": { "javax.jdo.option.ConnectionURL": "jdbc:mysql://sflmysql01.cbgb7etsvnph.rds.cn-northwest-1.amazonaws.com.cn:330...
2019-12-09 17:34:58 304
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人