刚哥的大数据之路-CSDN博客

目录前言基础概念环境篇： 1.docker 安装 2.docker 基础命令学习实践篇： 1.创建镜像仓库账号 2.实践docker 练习赛 3.docker 使用gpu 技巧&提高： 4.天池竞赛TCC规范 5常用基础镜像 docker &大赛天池大赛下限制条件/注意事项/常见问题集前言随着云原生、AI等技术的向前推进，容器技术逐渐成为每位算法同学的必备技能之一。本文档主要面向算法开发同学，从0基础实现将代码打包docker镜像-调试-提交仓库-提交云服务训练模型/天池大赛

2021-05-10 16:26:40 374

原创 Task 4 Python数据分析：从0完成一个数据分析实战（1天）

丰富资料更多内容详见：https://tianchi.aliyun.com/competition/entrance/531837/introduction?spm=5176.19700039.J_9059755190.8.51de3ff42NJsJq

2021-05-10 11:17:22 154

原创 Task 3 Python基础进阶：从函数到高级魔法方法（3天）

Python入门(下)简介函数函数的定义函数的调用函数文档函数参数函数的返回值变量作用域Lambda-表达式7. 匿名函数的定义8. 匿名函数的应用类与对象9. 属性和方法组成对象10. self是什么？11. Python的魔法方法12. 公有和私有13. 继承14. 组合15. 类、类对象和实例对象16. 什么是绑定？17. 一些相关的内置函数（BIF）魔法方法18. 基本的魔法方法19. 算术运算符20. 反算术运算符21. 增量赋值运算22.

2021-05-08 15:54:51 173

原创 Task 2 Python基础练习：数据结构大汇总（3天）

Python入门(中)简介列表列表的定义列表的创建向列表中添加元素删除列表中的元素获取列表中的元素列表的常用操作符列表的其它方法元组创建和访问一个元组更新和删除一个元组元组相关的操作符内置方法解压元组字符串13. 字符串的定义14. 字符串的切片与拼接15. 字符串的常用内置方法16. 字符串格式化字典17. 可变类型与不可变类型18. 字典的定义19. 创建和访问字典20. 字典的内置方法集合21. 集合的创建22. 访问集合中的值23. 集合

2021-05-08 15:00:15 126

原创 Python基础入门：从变量到异常处理

Python 是一种通用编程语言，其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用 Python 来执行机器学习，那么对 Python 有一些基本的了解就是至关重要的。本 Python 入门系列体验就是为这样的初学者精心准备的。本实验包括以下内容：变量、运算符与数据类型注释运算符变量和赋值数据类型与转换print() 函数位运算原码、反码和补码按位非操作 ~按位与操作 &按位或操作 |按位异或操作 ^按位左移操作 <<按位右移操作 >>

2021-05-08 14:32:24 86

原创 Task06：综合练习题-10道经典题目-天池龙珠计划SQL训练营

Task 1 SQL基础：初识数据库与SQL-安装与基本介绍等Task 2 SQL基础：查询与排序-select、运算符、聚合分组查询等Task 3 SQL进阶：复杂查询方法-视图、子查询、函数等Task 4 SQL进阶：集合运算-表的加减法和join等Task 5 SQL进阶：SQL高级处理-窗口函数等10道sql练习题详情见：https://tianchi.aliyun.com/forum/postDetail?spm=5176.20222307.J_9059755190.33.10784

2021-05-08 12:12:44 157

原创 Task05：窗口函数等--天池龙珠计划SQL训练营

5.1窗口函数5.1.1窗口函数概念及基本的使用方法5.2窗口函数种类5.2.1专用窗口函数5.2.2聚合函数在窗口函数上的使用5.3窗口函数的的应用 - 计算移动平均5.3.1窗口函数适用范围和注意事项5.4GROUPING运算符5.4.1ROLLUP - 计算合计及小计练习题5.15.25.3SQL训练营页面地址：https://tianchi.aliyun.com/specials/promotion/aicampsql天池龙珠计划训练营地址：https://tianchi

2021-05-08 11:17:00 89

原创 Task04：集合运算-表的加减法和join等-天池龙珠计划SQL训练营

4.1表的加减法4.1.1 什么是集合运算4.1.2 表的加法–UNION4.1.2.1 UNION4.1.2.2UNION 与 OR 谓词4.1.2.3 包含重复行的集合运算 UNION ALL4.1.2.4[扩展阅读]bag 模型与 set 模型4.1.2.5隐式类型转换4.1.3 MySQL 8.0 不支持交运算INTERSECT4.1.3.1[扩展阅读]bag 的交运算4.1.4 差集,补集与表的减法4.1.4.1 MySQL 8.0 还不支持 EXCEPT 运算4.1.4.

2021-05-07 17:47:13 109

原创 Task03：复杂查询方法-视图、子查询、函数等-天池龙珠计划SQL训练营

Task03：复杂查询方法-视图、子查询、函数等3.1 视图3.1.1 什么是视图3.1.2 视图与表有什么区别3.1.3 为什么会存在视图3.1.4 如何创建视图3.1.5 如何修改视图结构3.1.6 如何更新视图内容3.1.7 如何删除视图3.2 子查询3.2.1 什么是子查询3.2.2 子查询和视图的关系3.2.3 嵌套子查询3.2.4 标量子查询3.2.5 标量子查询有什么用3.2.6 关联子查询小结练习题-第一部分3.13.23.33.43.3 各种各样

2021-05-07 14:55:38 99

原创 Task02：SQL基础查询与排序-天池龙珠计划SQL训练营

Task02：SQL基础查询与排序一、SELECT语句基础1.1 从表中选取数据1.2从表中选取符合条件的数据1.3 相关法则二、算术运算符和比较运算符2.1 算术运算符2.2 比较运算符2.3 常用法则三、逻辑运算符3.1 NOT运算符3.2 AND运算符和OR运算符3.3 通过括号优先处理3.4 真值表3.5 含有NULL时的真值练习题-第一部分练习题1练习题2练习题3练习题4四、对表进行聚合查询4.1 聚合函数4.2 使用聚合函数删除重复值4.3 常用法则

2021-05-07 13:11:03 145

原创 Task01：初识数据库与SQL-天池龙珠计划SQL训练营

Task01：初识数据库与SQL目录一、初识数据库1.1 DBMS的种类1.2 RDBMS的常见系统结构1.3 数据库安装1.3.1 阿里云MySQL服务器使用介绍1.3.2 本地MySQL环境搭建方法介绍二、初识 SQL2.1 概念介绍2.2 SQL的基本书写规则2.3 数据库的创建（ CREATE DATABASE 语句）2.4 表的创建（ CREATE TABLE 语句）2.5 命名规则2.6 数据类型的指定2.7 约束的设置2.8 表的删除和更新2.9 向 prod

2021-05-07 11:03:09 106

原创 2020-12-04 学习笔记

2020-12-04：DG：Lamda大数据架构：https://www.cnblogs.com/cciejh/p/lambda-architecture.html不必深究DG：IOTA大数据架构：IOTA的整体思路是设定标准数据模型，通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中，以统一的数据模型贯穿始终，从而提高整体的计算效率，同时满足计算的需要，可以使用各种Ad-hoc Query来查询底层数据。统一的一个Common Data Model：“主-谓-宾”模型描述，“X

2020-12-08 09:41:32 275

原创 Doit数据运营系统（2）数仓开发

数仓涉及整体选型：技术选型数据采集：FLUME存储平台：HDFS基础设施：HIVE运算引擎：SPARK SQL资源调度：YARN任务调度：AZKABAN元数据管理：ATLAS数仓分层参考：https://www.cnblogs.com/itboys/p/10592871.html数据仓库各层说明：一、数据加载层：ETL（Extract-Transform-Load）二、数据运营层：ODS（Operational Data Store）三、数据仓库层：DW（Data Wareh

2020-09-15 16:23:12 785

原创 Doit数据运营系统（1）需求和设计

doit数据运营系统项目书本说明书只对整个项目的框架进行梳理，对于一些词汇不进行详细的解释，如果要深入研究可联系博主获得更详细的资料，或者自行百度。项目背景介绍数据运营平台的建设是为了解决公司营销分析断层、产品迭代无法量化、用户运营不精准、全局运营指标监控不实时等问题。需求总览：流量域分析基础数据分析整体概况、用户获取、活跃与留存、事件转化、用户特征基础数据分析指标概览整体概况产品整体的使用情况，包括用户量、访问情况、留存等，帮助对产品整体指标有一个大致的了解用户获取访问渠道

2020-09-15 12:06:16 626

原创 Spark（2）Spark Shell、scala、java及Lambda表达式编写WordCount程序、spark程序本地调试

启动spark shell详解spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。启动spark shell:./spark-2.1.0-bin-hadoop2.6/bin/spark-shell --master spark://linux1:7077,linux2:7077 --executor-memory 1g --total-executor-cores 3--master spark://linu

2020-09-03 22:26:19 313

原创 Spark（1）spark环境版本、思维导图、架构中的角色、standalone模式搭建

spark学习环境版本说明spark版本：spark-3.0.0hadoop版本：hadoop-3.2.1hbase版本：hbase-2.2.5kafka版本：kafka_2.12-2.4.1java版本：1.8scala版本：2.12

2020-09-03 18:48:53 206

原创 Kafka（3）scala API、kafka producer and consumer、偏移量

代码较多，暂时没组织好。更多资料大数据资料请关注公众账号codergang，以及作者个人微信DGCloud1991获取。

2020-09-03 12:48:31 216

原创 Kafka（2）kafka的概念及安装、副本与分区

1.Kafka的特点1.解耦：　　允许你独.立的扩展或修改两边的处理理过程，只要确保它们遵守同样的接.口约束。2.冗余：　　消息队列列把数据进.行行持久化直到它们已经被完全处理理，通过这.一.方式规避了了数据丢失.风险。许多消息队列列所采.用的"插.入-获取-删除"范式中，在把.一个消息从队列列中删除之前，需要你的处理理系统明确的指出该消息已经被处理理完毕，从.而确保你的数据被安全的保存直到你使.用完毕。3.扩展性：　　因为消息队列列解耦了了你的处理理过程，所以增.大消息.入队和处理理的频率

2020-09-03 00:14:33 184

原创 Kafka（1）消息中间件、消息队列、kafka消息队列中间件

在介绍什么消息中间件之前，先介绍几个概念：一、什么是消息# 消息是指软件对象之间进行交互作用和通讯利用的一种方式。二、什么是中间件非底层操作系统软件，非业务应用软件，不是直接给最终用户使用的，不能直接给客户带来价值的软件统称为中间件三、什么是消息队列消息队列是消息中间件的一种实现方式。四、什么是消息中间件关注于数据的发送和接受，利用高效可靠的异步消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型，它可以在分布式环境下扩展进程间的通信

2020-09-02 22:36:20 434

原创 Redis（3）redis的java、scala客户端，什么是jedis

在idea里面通过java语言和scala语言编写程序操作服务器doitedu01的redis代码暂时不想粘贴，待续，有需要的加我微信DGCloud1991 我发给你

2020-08-30 18:33:55 155

原创 Redis（2）Redis数据类型，难点是set

Redis中存储数据是通过key-value存储的，对于value的类型有以下几种（key都是string）：字符串 Map<String, String>Hash类型 Map<String, Map<String, String>>List Map<String, List>Set Map<String, HasSet>SortedSet（zset） Map<String, TreeSet>在redi

2020-08-30 18:09:51 125

原创 Redis（1）redis简介以及安装流程

什么是Redis？自行百度，redis官网 redis.io 自行查看简而言之，Redis是用C语言开发的高性能的键值对存储的Nosql数据库。redis是一个内存nosql数据库redis中也是存储key-value形式的数据redis中的key-value相比hbase等数据库来说，redis的value比较强大，它的value可以不仅仅是一个byte[]redis的value可以有结构：可以是一个list，也可以是一个hash，也可以是set…Redis存储的数据类型有五种：字符（st

2020-08-29 23:58:20 113

原创 Nosql权威指南

1.1什么是NoSqlNoSql是为了解决高并发、高可扩展、高可用以及高写入而产生的数据库解决方案。NoSql就是Not Only sql。Nosql是非关系型数据库，它是关系型数据库的良好补充，而不能替代关系型数据库。1.2Nosql数据库分类(了解)键值(Key-Value)存储数据库相关产品： Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB典型应用：内容缓存，主要用于处理大量数据的高访问负载。数据模型：一系列键值对优势：快速查询

2020-08-29 21:57:15 109

原创 Scala（10）scala的泛型、视图界定、上下界界定、上下文界定、柯里化实现隐式转换

** * [T <: Comparable[T]] 上界 upper bound java: <T extends Comparable> * [T >: Comparable[T]] 下界 lower bound java: <T super Comparable> * [T <% Comparable] 视图界定 view bound * [T : Comparable] 上下文界定 context bound * [-T] 逆

2020-08-29 21:46:30 159

原创 Scala（9）scala高级语法：柯里化、隐式转换案例

柯里化方法：package cn._51doit.day06object KelyDemo { def m1(x: Int, y: Int): Int = x * y //定义一个柯里化方法 def m2(x: Int)(y: Int) = x * y def m3(x: Int)(y: Int)(z: Int) = x * y * z def main(args: Array[String]): Unit = { val r1 = m1(5, 6) pr

2020-08-29 20:31:14 127

原创 Scala（8）Actor编程、AkkaRPC案例

Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor，老版本的Actor已经废弃一、什么是 Actor概念Scala中的Actor能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala是运用消息（message）的发送、接收来实现多线程的。actor 方法执行顺序首先调用start()方法启动Actor调用start()方法后其act()方法会被执行向Actor发送消息发送消息的方式方法作用! 发送异步消息，没有返

2020-08-29 11:09:23 132

原创 Scala（7）深入理解函数

/**深入的理解什么是函数函数的本质就是一个引用类型，有多重表现形式，即创建函数时可以用下面的多中方式。本质上就是new FunctionN的实现类（实例），就是在堆内存中开辟的一块空间。函数名（变量名）指向堆内存中的空间。*/ object FunctionInDeep { val f1 = (x: Int, y: Double) => (y, x) val f2: (Int, Double) => (Double, Int) = (x: Int, y: D.

2020-08-28 21:33:04 118

原创 Scala（6）option、some、none、偏函数

Option类型的样例类用来表示可能存在或也可能不存在的值（option的子类有Some和None）Some包装了某个值，None表示没有值偏函数也叫偏方法：PartialFunction 用来做模式匹配

2020-08-27 23:46:13 287

原创 Scala（5）继承类和实现特质、多态、apply方法、模式匹配

class Monkey extends Animal with Runnable with Flyable{}单继承 extends 多实现接口 with多态：父类引用指向子类对象，接口指向实现类apply方法：可以省略数组Apply后面直接跟括号，其实是一种简写方式，相当于调用了apply方法val a0=Array（1,2,3,4,5）val a1=Array.apply(1,2,3,4,5)val a2=new ArrayInt模式匹配：...

2020-08-27 23:34:42 181

原创 Scala（4）wc程序改造、aggregate、par、构造器、单例对象

aggregate函数结果是155并行化集合val arr=Array(1,2,3,4,5,6,7,8,9,10)arr: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)arr.parscala.collection.parallel.mutable.ParArray[Int] = ParArray(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)arr.par.sumres4: Int = 55arr.sumres5:

2020-08-27 22:25:34 195

原创 Scala（3）Scala版WordCount思路

val lines=Array(“spark hadoop spark flink”,“hadoop flink flink spark”,“hbase flink”)lines: Array[String] = Array(spark hadoop spark flink, hadoop flink flink spark, hbase flink)按逗号切分数组lines.map(x=>x.split(" "))Array[Array[String]] = Array(Array(spar

2020-08-27 00:02:21 142

原创英文专栏1

for English documents

2020-08-26 23:23:01 370

原创 Scala（2）Tuple、ArrayBuffer、List、Set、Map

val t=(10,2.0,“abc”,‘c’)t._1 =10t._2 =2.0元组里元素一旦确定就不能再改变，final关键字修饰的。

2020-08-26 23:18:46 127

原创 Scala（1）Array

filtermapreduce

2020-08-21 23:31:38 100

原创 Hive（7）HiveSql练习case when

工资表±--------±-------±-------±-------±-----------+| gz.uid | gz.jb | gz.jj | gz.tc | gz.deptno |±--------±-------±-------±-------±-----------+| 1 | 2000 | 3000 | 1500 | 1 || 2 | 5000 | 500 | 1000 | 2 ||

2020-08-21 21:30:44 583

原创 Hive（6）分桶表

分桶表将数据分文件存储 , 类似于分区uid name1001 ss11002 ss21003 ss31004 ss41005 ss51006 ss61007 ss71008 ss81009 ss91010 ss101011 ss111012 ss121013 ss131014 ss141015 ss151016 ss16clustered by(uid) – 分桶语法1 创建分桶表create table if not exists tb_clu

2020-08-21 20:23:10 207

原创 Hive（5）分区表

分区表:将数据按照查询的维度分文件夹管理没有分区表create table tb_order2(oid int ,dt string ,cost double)row format delimited fields terminated by “,” ;load data local inpath “/hive/data/06-18.txt” into table tb_order2 ;load data local inpath “/hive/data/06-19.txt” into

2020-08-20 19:59:19 72

原创 Hive（4）内部表和外部表

外部表（external table）有external修饰，表数据保存在HDFS上，该位置由用户指定。删除表时，只会删除表的元数据，所以外部表不是有Hive完全管理的内部表(internal table/managed table)没有external修饰，表数据保存在Hive默认的路径下，数据完全由Hive管理，删除表时元数据和表数据都会一起删除。3.区别外部表的表数据由HDFS管理，Hive管理外部表元数据，而内部表的表数据和元数据都由Hive管理外部表的表数据存储位置由用户指定，而内.

2020-08-20 19:17:24 294

空空如也

空空如也