LousenJay-CSDN博客

原创从零开始的Docker详解（六）

Docker仓库docker仓库是集中存放镜像的地方，类似maven的仓库集中存放依赖。Docker HubDocker Hub是由Docker官方维护的公共仓库，包含官方镜像和个人上传的镜像，大部分镜像都可以在上面找到。注：非官方的镜像需谨慎使用，存在被植入后门的可能性登陆可以在Docker Hub免费注册一个Docker账号，然后就可以用docker login命令直接连接 Docker hub远程仓库，拉取自己账号下的全部镜像。使用docker logout命令退出登陆推送镜像

2020-07-30 09:15:06 283

原创从零开始的Docker详解（五）

Docker容器互联简介：docker可以定义一个连接系统将多个容器都连接在一起，共享连接信息。docker链接会创建一个父子关系，其中父容器可以看到子容器的信息。新建网络使用命令docker network ls来查看当前已有的docker网络。使用命令docker network create -d bridge <name>来创建一个新的docker网络。参数说明：-d：指定docker网络类型，有bridge、overlay等连接容器1.创建一个容器testa并连接

2020-07-30 08:40:58 355

原创从零开始的Docker详解（四）

Docker镜像直接运行容器时，如果本地不存在对应的镜像，docker就会自动从docker镜像仓库下载，默认是从Docker Hub公共镜像源下载。查看本地主机镜像列表使用命令docker images可以查看本地主机已有镜像列表字段说明：REPOSITORY：镜像的仓库源TAG：镜像的标签，版本IMAGE ID：镜像IDCRETED：镜像创建时间SIZE：镜像大小获取新的镜像使用命令docker pull <repository:tag>来预先下载镜像到本地查

2020-07-29 09:09:26 326

原创从零开始的Docker详解（三）

Docker web应用运行web应用示例：在docker容器中运行一个Python Flask应用来运行一个web应用。docker pull training/webapp # 载入练习的webapp镜像docker run -d -P training/webapp python app.py参数说明：-d：在后台运行-P：将容器内部使用的网络端口随机映射到我们使用的主机上查看web应用容器端口映射使用命令docker port可以查看指定（ID或NAME）容器的某个确定端

2020-07-29 08:19:36 240

原创从零开始的Docker详解（二）

Docker容器Docker客户端1.使用docker命令查看docker客户端支持的命令列表2.使用docker <command> --help命令查看指定命令的使用方法Docker容器基本操作命令1.使用命令docker pull <image>来获取指定镜像2.使用命令docker run -it <image> <command>来启动一个容器参数说明：-i：交互式操作-t：终端ubunt：ubunt镜像/bin/bas

2020-07-29 08:18:17 205

原创从零开始的Docker详解（一）

Docker简介Docker是一个基于go语言开源的应用容器引擎。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口（类似手机的 app）,更重要的是容器性能开销极低。Docker的应用场景Web 应用的自动化打包和发布自动化测试和持续集成、发布在服务型环境中部署和调整数据库或其他的后台应用从头编译或者扩展现有的 OpenShift 或 Cloud F

2020-07-27 03:18:24 311

原创从零开始的Git详解（完）

Git常用命令速查表创建创建一个已存在的仓库。git clone git@github.com:LousenJay/DingGong.git创建一个新的本地仓库。git init本地修改查看工作区当前状态git status查看工作区与版本库里面最新版本的区别git diff将工作区当前所有的修改内容添加到暂存区git add .将工作区指定的修改内容添加到暂存区git add <your file>将暂存区当前所有的内容都提交到当前分支，并添加注释git

2020-07-13 02:42:35 208

原创从零开始的Git详解（七）

标签管理常见场景：回顾一下，每一个commit都有对应的commit id，我们可以根据commit id找到对应的版本。但是commit id是一串无规律的字符串，不便于记忆。解决方案：Git提供了标签的功能，可以给对应版本打上标签，标签相当于是版本库的快照，取某个标签的版本，就是把打标签的时刻的历史版本取出来。简而言之，标签和指定的commit id是绑定的，相当于取了一个便于记忆的别名。创建标签...

2020-07-13 00:26:18 198

原创从零开始的Git详解（六）

分支管理概念：分支好比两条互不干扰的时间线，合并相当于两条时间线重叠了。场景：在自己的分支干活，不影响其他分支。自己代码写的咋样没点B数吗。创建与合并分支在Git里，有一个主分支被叫做master，有一个指针被叫做HEAD。一开始，只有master这一条分支，HEAD指向当前分支即master，master指向提交。使用命令git branch查看当前分支创建新分支de...

2020-07-08 09:02:35 250

原创从零开始的Git详解（五）

远程仓库Git是分布式版本控制器，同一个Git仓库可以分布到不同的机器上，而且每台机器的版本库都是一样的没有主次之分。实际上，一般找一台电脑充当服务器角色，每天24小时运行，其他成员可以从这台服务器的版本库克隆一份到自己的电脑上，并且各自把各自的提交推送到服务器版本库里，也可以从服务器仓库中拉取别人的提交。绑定github世界上有一个gay里gay气的网站叫“gayhub ”，从名称就可以看...

2020-03-27 01:09:31 229

原创从零开始的Git详解（四）

查看修改相较于其它版本控制系统，Git跟踪的是修改而不是文件本身，可以使用git diff HEAD -- filename命令来查看工作区与版本库里面最新版本的区别。例：当前工作区相较于版本库最新版本删除了两行内容撤销修改将工作区的修改全部丢弃，使用git checkout -- filename命令。将暂存区的修改全部丢弃，第一步使用git rerset HEAD filena...

2020-03-26 00:32:49 204

原创从零开始的Git详解（三）

Git工作原理工作区工作区（Working Directory）就是在电脑里能看到的一个单独的文件夹，对应一个Project，如下图所示Test文件夹就是一个工作区。版本库Git版本库（Repostitory）是指工作区内隐藏的文件夹.git，这个文件夹存放了很多东西，其中最主要的是stage（或称为index）的暂存区，还有Git自动创建的第一个master分支，以及指向master的...

2020-03-25 00:46:42 240

原创从零开始的Git详解（二）

版本回退不断对同一个文件进行修改时，该文件会产生多个历史版本，git reset命令可以使该文件回退到指定的版本。创建多个版本a. Version 1.0 b. Version 2.0 c. Version 3.0查看历史提交日志a. 查看所有日志git log注：按q键退出浏览b. 查看格式化后的日志git log --pretty=oneline回退版本...

2020-03-24 00:22:28 261

原创集中式架构vs分布式架构

历史自从20世纪60年代大型主机被发明出来以后，凭借其超强的计算和I/O处理能力以及在稳定性和安全性方面的卓越表现，在很长一段时间内，大型主机引领了计算机行业以及商业计算领域的发展。由于大型主机卓越的性能和良好的稳定性，其在单机处理能力方面的优势非常明显，使得IT系统快速进入了集中式处理阶段，其对应的计算机系统称为集中式系统。但从20世纪80年代以来，随着微型计算机的出现，越来越多廉价的PC机...

2020-02-12 20:48:48 4592

原创关系型数据库vs非关系型数据库

关系型数据库关系型数据库(Relational database)，是指采用了关系模型来组织数据的数据库，其以行和列的形式存储数据，以便于用户理解，关系型数据库这一系列的行和列被称为表，一组表组成了数据库。用户通过查询来检索数据库中的数据，而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型，而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。

2020-02-11 16:39:44 428

原创从零开始的Git详解（一）

前言Git作为目前最流行的版本控制系统，几乎是每个程序猿的必修课程。笔者之前对于Git的使用只停留在基本的操作上，趁这次机会打算重新梳理一遍这个知识点。本文主要流程参照了廖雪峰老师官网的Git课程，记录了笔者自身操作步骤的截图以及遇到的问题。

2020-01-15 00:20:17 308

转载各大开源协议介绍「图解」

简介世界上的开源许可证（Open Source License）大概有上百种，今天我们来介绍下几种我们常见的开源协议。大致有GPL、BSD、MIT、Mozilla、Apache和LGPL等。图解分析Apache LicenseApache License（Apache许可证），是Apache软件基金会发布的一个自由软件许可证。Apache Licence是著名的非盈利开源组织Apac...

2019-11-12 20:47:51 3584

原创 MySQL报错之1786 - Statement violates GTID consistency: CREATE TABLE ... SELECT

一、报错截图二、场景描述使用create table xxx2 as select ... from xxx1语句时报错，这是由于MySQL在5.6及更高的版本添加了enforce_gtid_consistency 这个参数，默认设置为true，只允许能够保障事务安全，并且能够被日志记录的SQL语句被执行。create table mx_temp_1( id int(10) primar...

2019-10-24 21:26:01 7572

原创常用hive开窗函数示例

简介普通的聚合函数每组(group by)只返回一个值，而开窗函数则可以为每行都返回一个值。简而言之，相当于对查询的结果添加新的一列值，这一列可以是聚合值，也可以是排序号。开窗函数的关键字是over()。准备测试数据建表create table if not exists student_scores(id string,studentId string,language str...

2019-05-31 23:48:04 1854

原创从最通俗的角度阐述SaaS，PaaS和IaaS的概念和区别

IaaS, PaaS和SaaS是云计算的三种服务模式，以下分别从官方和通俗两个角度来理解SaaS、PaaS和IaaS的概念以及它们之间的区别。

2019-04-22 00:34:31 14076

原创 Atom+Asciidoctor+Antora环境搭建

个人博客原文链接Atom简介Atom是github专门为程序员推出的一个跨平台文本编辑器。具有简洁和直观的图形用户界面，并有很多有趣的特点：支持CSS，HTML，JavaScript等网页编程语言。它支持宏，自动完成分屏功能，集成了文件管理器。安装【windows7】1.下载官网链接2.安装3.配置环境变量path中添加C:\Users\Administrator\AppData...

2019-02-26 16:24:51 2026 1

原创 kafka集群搭建

个人博客原文链接Kafka单机模式1.解压tar -xvf kafka_2.11-0.8.0.0.tgz -C /home/hadoop/apps/2.配置环境变量vi ~/.bashrcexport KAFKA_HOME=/opt/software/kafka export PATH=$PATH:$KAFKA_HOME/binsource ~/.bashrc3.启动...

2019-01-31 21:58:55 391 1

原创两个步骤，通过正规渠道免费访问和下载CNKI的资源【2019/4/11】

主要步骤：支付宝内搜索并关注“浙江图书馆”的生活号，点击“服务”-》“服务大厅”-》“办理读者证（免费的，自定义读者证的密码）”，办理完读者证后可以去支付宝卡包查看读者证的卡号。打开浙江图书馆的官网链接（浙江图书馆）用读者证的卡号和密码登录浙江图书馆，在右下角会有数据库推荐版块，里面有知网（CNKI）、维普、万方等数据库都可以免费访问和下载资源了~...

2018-12-27 17:00:28 7422

原创数栈-数据开发规范

个人博客原文链接术语解释ODS(Operational Data Store):操作型数据，即源数据，指结构与源系统基本保持一致的增量或全量数据。作为DW数据的一个数据准备区，同时又承担基础数据记录历史变化。CDM(Common Data Model):通用数据模型(数据中间层)，包含DWD和DWS。DWD(Data Warehouse Detail):数据仓库明细层数据。DWS(Da...

2018-12-21 14:55:35 1371

原创数栈-离线数据开发学习笔记

个人博客原文链接离线任务开发离线任务开发模块主要是设计数据计算流程，并实现为多个相互依赖的任务，供调度系统自动执行的主要操作页面。对象在数据开发阶段，DTinsightBatch提供了4种对象：任务、脚本、资源和函数。它们之间的项目关系如下图所示：任务：数据开发的主要对象，包含周期属性和依赖关系，是数据计算的主要载体，支持多种类型的任务和节点适应不同场景，详情请参见任务类型。脚本：数...

2018-12-21 14:53:41 1604

原创数栈-数据集成学习笔记

个人博客原文链接简介数据集成模块是在各个存储单元之间执行数据交换的通道，具备分布式底层架构，稳定高效、弹性伸缩的特点，致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。为了在DTinsightBatch进行大规模数据集的挖掘与计算，通常的做法是在任务执行前将数据传输至DTinsightBatch，并在任务执行结束后将计算结果传输至外部存储单元（例如MySQL等应用...

2018-12-21 14:51:27 957

原创 Spark入门详解（四）-网页排名算子开发实例

个人博客原文链接思路分析：1.此操作需要用到两个pairRDD，第一个pairRDD，key：当前页面，value：当前页面所含链接页面的合集。2.第二个pairRDD，key：当前页面，value：当前页面的权重3.两个pairRDD在循环中根据key进行连接操作，计算每次循环返回后各个页面的权重值4.根据权重值的大小可知页面的排名开发代码：object PageRankTest ...

2018-11-22 09:45:07 520

原创 Maven的pom.xml配置详解

个人博客原文链接本次主要介绍了如何在IntelliJ IDEA中正确配置pom.xml文件，通常至少要包含三个部分：项目坐标和模型版本、引入依赖的jar包、构建项目的配置。关于Maven的安装和环境配置可以参考我之前的文章：Maven入门学习模型版本和项目坐标模型版本modelVersion：pom文件的模型版本项目坐标指的是项目在maven资源库的坐标，通过groupId + ...

2018-11-22 09:43:40 846

原创 Spark入门详解（三）-RDD编程

个人博客原文链接RDD简介RDD是弹性分布式数据集，完全弹性的，如果数据丢失一部分还可以重建。有自动容错、位置感知调度和可伸缩性。RDD共包含两种计算方式，一种是transformations转换，一种是actions操作，每种计算方式包含一些常用的方法。注：Transformations转换是Lazy的，也就是说从一个RDD转换生成另一个RDD的操作不是马上执行，Spark在遇到Tran...

2018-11-22 09:41:07 423

转载 Spark入门详解（二）-Spark运行原理

个人博客原文链接Spark运行过程Spark应用程序以进程集合为单位在分布式集群上运行，通过driver程序的main方法创建的SparkContext对象与集群交互。Spark大致运行流程：1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源（cpu、内存等）2、Cluster manager分配应用程序执行需要的资源，在Work...

2018-11-22 09:39:42 367

原创 Spark环境搭建（多种模式）

个人博客原文链接Spark环境的搭建相比于Hadoop集群的搭建还是比较简单的，而且跟Hadoop集群的搭建流程也很相似，只是没有Hadoop集群那么多的配置文件要修改。本文中，我将详细介绍Spark的本地模式、Standalone模式（伪分布）、Standalone模式（全分布）、Yarn集群模式的搭建。搭建环境：CentOS7+jdk8+spark2.3.2+hadoop2.7Local...

2018-11-22 09:37:00 1101

原创 Spark入门详解（一）-Spark简介

个人博客原文链接简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提供可交互查询方式，提供近实时处理方式，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集（Scala提供一个称为Actor的并行模型，其中Act...

2018-11-22 09:34:20 607

原创 Scala入门详解（四）

个人博客原文链接IO/** * IO * Scala进行文件写操作，直接用的都是java中的I/O类（java.io.File) */object TestIO { def main(args: Array[String]): Unit = { // 写操作// val writer = new PrintWriter(new File("test.txt" ...

2018-10-09 16:57:12 192

原创 Scala入门详解（三）

个人博客原文链接集合List/** * List * 列表类似于数组，它们所有元素的类型都相同，但是它们也有所不同： * 列表是不可变的，值一旦被定义了就不能改变， * 其次列表具有递归的结构（也就是链接表结构）而数组不是 */object TestList { def main(args: Array[String]): Unit = { // 不可变Li...

2018-10-09 16:56:00 339

原创 Scala入门详解（二）

个人博客原文链接类类的声明与定义/** * 类的声明与定义 * Scala是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。 * 在面向对象的语言有两个重要的概念：类(class)和对象(object也被称为实例—instance)， * 其中类是对象的抽象。可以把类理解为模板，对象才是真正的实体。 */// 1. scala 中每个类都有主构造器...

2018-10-09 16:54:25 268

原创 Scala入门详解（一）

个人博客原文链接简介Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。优点优雅：这是框架设计师第一个要考虑的问题，框架的用户是应用开发程序员，API是否优雅直接影响用户体验。速度快：Scala语言表达能力强，一行代码抵得上Java多行，开发速度快；Scala是静态编译的。...

2018-10-09 16:52:34 371

原创 HBase入门详解（三）

个人博客原文链接环境：centos7+hadoop3.0.3+hbase2.0.1+jdk8HBase的MapReduce操作注意事项：* Map继承TableMapper* Reduce继承TableReducer* 最后Reduce输出的value的类型是Mutation* 通过TableMapReduceUtil来设置相关信息实例：统计行键并添加到指定列族public cl...

2018-09-25 19:58:40 507

原创 HBase入门详解（二）

个人博客原文链接环境：centos7+hadoop3.0.3+hbase2.0.1+jdk8HBase开发测试代码准备 Configuration conf = null; ExecutorService pool = null; Connection conn = null; Admin admin = null; Table table = nul...

2018-09-25 11:56:48 1194 1

原创 HBase入门详解（一）

个人博客原文链接简介什么是HBaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Googl...

2018-09-19 22:22:31 589

原创 Hive入门详解（三）

个人博客原文链接内置函数UDF和内置运算符取随机数rand()select rand() from t_product;求a的阶乘factorial(INT a)select factorial(10) from t_product;求最大值greatest(T v1, T v2, …)select greatest(10,123,53,34,1,23,502,120...

2018-09-18 23:11:12 375