2019年12月_孙砚秋

原创 02 ，sqs 原理：

1 ，本节内容：本节描述 Amazon SQS 队列的类型及其基本属性。它还描述了队列和消息的标识符以及各种队列和消息管理工作流程。2 ，架构图示：3 ，架构说明：1 ，创建队列： sqs 服务器，会创建很多冗余，目的是保证数据的安全性。2 ，可见性超时：在一定时间范围内，其它的使用者，看不到这条消息，但是消息仍然保留在队列中。3 ，删除消息：处理后，删除这条消息，以...

2019-12-30 16:43:22 1101

原创 01 ，sqs 入门：控制台操作

一，相关信息：1 ，sqs 管理页面：https://cn-northwest-1.console.amazonaws.cn/sqs/home?region=cn-northwest-12 ，sqs 文档：https://docs.amazonaws.cn/AWSSimpleQueueService/latest/SQSDeveloperGuide/welcome.html二，...

2019-12-30 15:21:20 826

原创 3 ，登录页面，Servlet 回顾，jdbc 回顾，ajax 回顾，FastJson 使用，一些异常的处理

1 ，登录页面：http://localhost:8080/lifecycle/2 ，注册页面：3 ，把 Tomcat 中的包引入到 Idea ：tomcat 与 servlet 的版本对应关系： https://blog.csdn.net/majiang26/article/details/80052346我们的 tomcat 版本： 8.5.42所以，我们需要的 Se...

2019-12-26 18:05:13 206

原创 2 ，jQueryUI 研究：手册网址

1 ，引入：引入：<link rel="stylesheet" href="web_page/jqueryui/jquery-ui.css" /><script src="web_page/jqueryui/external/jquery/jquery.js"></script><script src="web_page/jqueryui/...

2019-12-26 14:59:35 141

原创 1 ，idea，maven ，web 项目：

1 ，在 idea 建 web 项目：建项目： new - project - maven操作：下一步 - 下一步 - 完成等着，会下载一些东西2 ，安装 tomcat 插件：file - settings - plugins - 搜索 tomcat ：- 勾选 - install from jetbrains plugin - install -apply - ok ...

2019-12-26 12:48:48 83

原创 4，串行与并行交织：第一批集群并行，第二批集群并行，集群间串行

1 ，目的：先开两个集群 ( a , b )分别输出： a1,a2,b1,b2等 a,b 集群关闭再开两个集群 ( c，d )分别输出： c1,c2,d1,d22 ，技术核心：监控集群状态核心对象： DescribeClusterResult作用：集群状态描述类3 ，程序结构：4 ，代码：package lifeCycle02_Cluster;...

2019-12-25 19:00:03 361

原创 3，集群内串行：成功

package test01;import com.amazonaws.services.elasticmapreduce.model.StepConfig;import lifeCycle01_Tool.Tool01_Cluster;import lifeCycle01_Tool.Tool02_Step;import java.util.ArrayList;import java.u...

2019-12-25 14:50:14 203

原创 2 ，aws sdk for java ：启动 emr ，执行步骤，执行后关闭，2 个步骤执行后关闭

1 ，写一个 spark 程序：目的：测试功能：把 sql 结果存储进指定的文件夹执行：spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle01_tool.Tool10_sq...

2019-12-25 14:48:48 444

原创 1 ，aws java sdk，启动 emr

1 ，去 github 下载我们需要的代码：本地建文件夹：E:\emrCode建库：1 ，进去2 ，右键 - git bash here3 ，git init连接远程仓库：git remote add -f emrCode https://github.com/aws/aws-sdk-java.git...

2019-12-23 22:13:37 632

原创 7 ，github 账号注册，上传代码到公司的 gitLab

1 ，网址：https://github.com/2 ，登录：3 ，将本地库推送到远程库： ( 必须先拉去，再推送 )查看所有远程地址别名：git remote -v创建远程库别名：git remote add origin http://fulong@prj2.lifecycle.cn/da/data_platform.git拉取：git pull...

2019-12-23 17:15:34 436

原创 6 ，git 原理：

1 ，hash 算法：目的：明文 -> 密文加密算法： hash 算法hash 算法特点：不管原文多长，得到的结果长度一致2 ，git 如何保证数据的完整性：3 ，版本管理机制：svn ：增量式版本控制每个版本都保存着，修改过的那一点操作git ：全量式版本管理文件快照保存数据如果没有修改，指针指向之前的版本每个文件都会做一次 hash ，得...

2019-12-23 15:39:36 97

原创 5，分支管理，分支操作，分支合并

1 ，分支是什么：多线操作，多个任务2 ，默认提供主干分支：master3 ，作用：各个分支，齐头并进各自安好，主干合并4 ，自己新建分支：hot_fix查看所有分支： git branch -v新建分支( 热修复 ) ： git branch hot_fix切换到分支： git checkout hot_fix我们当前所在分支：括号中显示的就是当前所...

2019-12-23 15:19:14 171

原创 4 ，版本的前进和后退，查看文档，hard，soft，mixed ，删除文件找回，比较文件差异

1 ，版本日志：git log2 ，版本控制的原理移动 head 指针3 ，为了测试：弄出 4 个版本上传：修改文件，上传再次修改文件，上传git commit -a -m "forth"查看日志：1 ，普通打印：git log2 ，漂亮打印：git log --pretty=oneline3 ，如果日志超过了一页：空格：下一页b：上...

2019-12-23 12:20:23 143

原创 3 ，git 命令行：本地库操作，上传

1 ，查看状态：git status2 ，新建一个文件：aa.txt3 ，查看状态：git status发现一个未追踪的文件：也就是我们刚刚创建的那个文件4 ，工作区 -> 暂存区：git add aa.txt5 ，暂存区：移除文件git rm --cached aa.txt6 ，提交：暂存区 -> 本地库提交：git commit...

2019-12-23 11:40:49 88

原创 2 ，git 命令行：本地库，设置签名，本地库签名，全局签名

1 ，本地库初始化：建一个文件夹：D:\space\02_git\01_gitTest01去到这个文件夹中：右键 - git bash here看到 git 命令行初始化本地库：lspwdgit init效果：出现一个新的目录 ( 隐藏目录 ).git 目录中存储的是什么：与仓库相关的信息，不要删除2 ，设置签名：1. 用户名： git con...

2019-12-23 10:56:38 529

原创 1 ，git 简介，git 安装与卸载，git 结构

1 ，windows 卸载 git ：用 360 卸载 git ：2 ，git 是什么：版本控制工具，类似 SVN3 ，svn 原理：每次保存一点点，改动的地方4 ，git 原理：每次保存文件系统的快照5 ，git 官网：https://git-scm.com/6 ，安装：双击： Git-2.17.0-64-bit.exe选择安装路径下一步 - 下一步...

2019-12-23 09:49:16 2244 1

原创 02 ，lambda ，S3 触发，打印，cloudWathch 监控

1 ，删除原 lambda ：删除函数：找到桶，属性：删除事件，保存：2 ，目的：监听某个 S3 目录。如果这个 S3 有新创建的文件夹，或者上传的文件。就打印这个文件的名字。3 ，创建 lambda ：创建：从头创建：基本信息：创建函数添加触发器：4 ，写代码：pom.xml ：<?xml version="1....

2019-12-17 18:01:03 296

原创 01 ，lambda 概览：

1 ，使用控制台创建 Lambda 函数进入控制台。创建函数。输入函数名字。运行环境： java8创建函数。2 ，Designer 作用：触发器。设置权限。3 ，触发器：不可重复如果 /a 被监听那么 /a/b 不能被监听4 ，删除触发器：查看目录属性：删除事件，保存：5 ，创建触发器：...

2019-12-16 17:34:15 74

原创 10 ，hive 函数：数学，字符串，时间

一，数学函数：round，ceil，floor1 ，四舍五入： roundhive> select round(1.64567,2);1.652 ，向上取整，向下取整：ceil ，floorhive> select floor(1.6);1hive> select ceil(1.6);23 ，四舍五入到百位： round -2hive> s...

2019-12-15 14:32:56 218

原创 09 ，视图：

1 ，视图：视图是：虚拟表真实表：物理表2 ，跨表：一个视图：可以跨越多张表3 ，如果原表的数据变多：视图的数据：也变多4 ，创建视图：create view stu_view as select * from student;5 ，查询视图：select * from stu_view;6 ，原表数据新增：insert into stu...

2019-12-15 13:03:50 109

原创 08 ，桶表：

1 ，桶表简介：用列的 hashCode 取值。用哈希值分文件。同一个哈希值的数据存放在一个文件中。2 ，桶表 - 内部表：桶表只能是内部表。桶表的数据是后导入的3 ，建表：内部，分桶，默认分隔符，name 分桶，5 个桶sql ：create table student (sid string,sname string,sage string) clust...

2019-12-15 12:54:39 111

原创 06 ，基础操作：转 parquet ，查看 parquet ，转 csv ，查看 csv ，总条数

1 ，count csv ：命令：spark-submit --master yarn --num-executors 5 --executor-cores 3 --executor-memory 6144m --deploy-mode client --class lifecycle01_tool.Tool02_CountCsv s3://lifecyclebigdata/dataWa...

2019-12-14 18:43:39 3034

原创 07 ，外部表，文本文件，parquet-snappy 文件

一，概览：1 ，加载数据和创建表同时完成。2 ，先有数据，后又表。3 ，链接：外部表只是一个链接4 ，不需要移动数据：他只是把表结构映射到数据文件，不需要移动数据到自己的目录下。二，外部表，文本文件：1 ，建三个文件：aa.txt ：1,aa,102,bb,203,cc,30bb.txt ：4,dd,505,ee,12106,ff,ds...

2019-12-13 17:51:57 667

原创 05 ，内部表，分区表：分文件夹

1 ，分区表： partition1 ，意义：每个分区，对应一个子目录2 ，目的：提高查询效率2 ，建表：内部，分隔符，parquet，snappy，分区：create table par_test(id int,name string) partitioned by (sex string) row format delimited fields terminated...

2019-12-13 17:26:04 254

原创 04 ，默认创建内部表，查询创建内部表，查看表是内部还是外部

1 ，默认创建的表是：内部表create table t1(id int,name string);2 ，查看表是不是内部表：命令：desc extended t1;有效信息： tableType:MANAGED_TABLE全部信息：Detailed Table Information Table(tableName:t1, dbName:default, o...

2019-12-13 14:19:17 432

原创 00 ，数据仓库，hive 命令行，查库，查表，查函数

1 ，特点：面向主题 ( 使用数据时，关心的方向 )多方集成 ( 数据来自很多方面 )不可改变 ( 我们不会做 update 操作，只做查询 )2 ，进入命令行：hive3 ，退出命令行：quit;4 ，所有库：show databases;5 ，建库：create database aa;6 ，删库：drop database aa;7 ，使用库：...

2019-12-11 22:35:06 330 1

原创 03 ，内部表，建表，查看表结构，导入数据，支持 snappy ，支持 parquet ，spark( 转换 snappy，parquet )

1 ，hive 中的表的构成：真实数据：以文件的形式，存储在 hdfs / s3 上元数据：将表映射到文件，元数据存储在 mysql / oracle 中2 ，内部表：hive 自己维护真实数据删除：元数据删除，真实数据删除3 ，外部表：hdfs / s3 维护真实数据删除：只删除元数据，不删除真实数据4 ，...

2019-12-11 22:00:16 965

原创 02，spark on hive ：数据类型，hive 控制台，库操作

1 ，看看 parquet ：spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.showCount.LookParquet s3://lifecyclebigdata/dataWareH...

2019-12-11 17:33:55 317

原创 20 ，排错：

1 ，执行：spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle00_all_need.Need03_need04_seasonYeji s3://lifecyclebigdata/dataWar...

2019-12-11 14:58:14 114

原创 19 ，spark on hive 使用：

1 ，Spark on Hive：Hive 只作为储存角色，Spark 负责 sql 解析优化，执行。2 ，

2019-12-11 09:55:36 202

原创 18 ，八大需求： 2 ( 单店FrameWork )

1 ，越过：

2019-12-10 15:57:50 82

原创 17 ，八大需求： 1 ( 单季销售流水 )

1 ，越过

2019-12-10 15:57:00 143

原创 15 ，库存：

1 ，库存流水，转换格式：spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class lifecycle01_tool.ParseCsvToParquet s3://lifecyclebigdata/dataWareH...

2019-12-10 15:50:05 223

原创 16 ，进货：

1 ，进货流水：349234949 ( 3.4 亿 )+-----+--------------+--------+----------+--------+--------+-----------+----+----+--------+------+|区域 |店主 |门店类型|门店代码 |进货月份|进货日期|款号 |颜色|尺码|进货类型|进货量|+-----...

2019-12-10 15:49:54 158

原创 01 ，VPC - MYSQL - HIVE 学习：

1 ，vpc ：名字：dftvpcID ： vpc-fbd477922 ，子网： dft03 ( subnet-9375d6fa )dft01dft02dft033 ，安全组： j ( sg-3bc38a52 )4 ，创建 mysql ：msql 版本： 5.7.22vpc ： vpc-fbd47792子网组： default安全组： defaul...

2019-12-10 11:00:28 183

原创 04 ，aws-hive 连接 mysql 数据库：

1 ，配置文件： hiveConfiguration.json[{ "Classification": "hive-site", "Properties": { "javax.jdo.option.ConnectionURL": "jdbc:mysql://sflmysql01.cbgb7etsvnph.rds.cn-northwest-1.amazonaws.com.cn:330...

2019-12-09 17:34:58 304

原创 02 ，aws 中创建 mysql应用实例

1 ，创建：2 ，步骤：2 ，结果：创建成功

2019-12-09 16:16:06 191

孙砚秋的博客