- 博客(67)
- 收藏
- 关注
原创 Spark5——SparkSQL
Spark5——SparkSQLSparkSQL相关概念DataFrameDataSetSparkSQL核心编程DataFrameDataSet三者的区别三者的相互转换用户自定义函数UDFUDAF数据的加载和保存通用的加载和保存方式SparkSQL相关概念DataFrame在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集
2022-05-26 11:41:52 619 1
原创 Spark4——核心编程
Spark3——核心编程核心编程累加器——分布式共享只写变量广播变量——**分布式共享只读变量**Spark案例实操Top10热门品类工程化代码——架构模式核心编程累加器——分布式共享只写变量实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。 val rdd = sc.makeRD
2022-04-01 10:22:38 532
原创 Spark3——核心编程
Spark核心编程Spark核心编程行动算子序列化RDD依赖关系RDD持久化RDD分区器RDD文件读取与保存Spark核心编程行动算子(1)reduce聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。(2)collect在驱动程序中,以数组 Array 的形式返回数据集的所有元素。(3)count返回 RDD 中元素的个数。(4)first返回 RDD 中的第一个元素。(5)take返回一个由 RDD 的前 n 个元素组成的数组。(6)takeOrdered返回该
2022-04-01 10:21:55 1867
原创 Spark2——运行架构、核心编程
Spark2——运行架构、核心编程Spark运行架构运行框架核心组件核心概念提交流程Spark核心编程IO基本实现原理RDDRDD转换算子Value类型双Value类型Key-Value类型案例实操Spark运行架构运行框架Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master,负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责
2022-04-01 10:21:29 2146
原创 Spark1——运行环境配置
Spark1——运行环境配置Maven配置安装scala和Spark(Mac 环境)WordCount实现Spark运行环境Maven配置安装scala和Spark(Mac 环境)参考:https://blog.csdn.net/end_taotao/article/details/98450984安装scala插件,2.12.11版本(1)这里将/usr/local/scala-2.12.11下的scala解压包直接导入Project Structure。(2)在项目下Add Framew
2022-04-01 10:20:50 290
原创 Scala——模式匹配、异常、隐式转换、泛型
Scala——模式匹配、异常8 模式匹配8.1 基本语法8.2 模式守卫8.3 模式匹配类型9 异常10 隐式转换10.1 隐式函数10.2 隐式类10.3 隐式参数11 泛型11.1 协变和逆变11.2 泛型上下限11.3 上下文限定8 模式匹配8.1 基本语法模式匹配语法中,采用 match 关键字声明,每个分支采用 case 关键字进行声明,当需要匹配时,会从第一个 case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断。如果所有 case
2022-03-23 16:55:49 678
原创 Scala——集合
Scala——集合7 集合7.1 集合简介7.2 数组7.3 列表List7.4 Set集合7.5 Map集合7.6 元组7.7 集合常用函数7.8 队列7.9 并行集合7 集合7.1 集合简介集合简介:(1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable特质。(2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包不可变集合:scala.collection.immutable可变集合: scala.
2022-03-23 16:55:13 3076
原创 Scala——函数式编程、面向对象
Scala——函数式编程5 函数式编程5.1 函数基础5.2 函数高级5.2.1 匿名函数5.2.2 高阶函数5.2.3 高阶函数练习5.2.4 函数柯里化&闭包5.2.4 递归5.2.5 控制抽象5.2.6 惰性加载6 面向对象6.1 Scala包6.1.1 包的命名6.1.2 包说明(包语句)6.1.3 包对象6.1.4 包导入6.2 类和对象6.2.1 定义类6.2.2 属性6.3 封装6.4 继承和多态6.5 抽象类6.6 单例对象(伴生对象)6.7 特质(Trait)6.
2022-03-19 21:26:56 1166
原创 Scala——运算符、流程控制
Scala运算符3 运算符3.1 算术运算符3.2 关系运算符3.3 逻辑运算符3.4 赋值运算符3.5 位运算符3.6 Scala运算符本质4 流程控制4.1 分支控制if-else4.2 嵌套分支4.3 Switch分支结构4.4 For循环控制4.5 While 和 do…While循环控制4.6 循环中断4.7 多重循环3 运算符3.1 算术运算符对于除号“/”,它的整数除和小数除是有区别的:整数之间做除法时,只保留整数部分而舍弃小数部分。package com.yu.chapter03
2022-03-19 21:26:35 464
原创 Linux——vim使用及账号用户管理
Linux——vim使用及账号用户管理Vim编辑器三种使用模型Vim编辑器Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。三种使用模型基本上 vi/vim 共分为三种模式,分别是命令模式(Command mode),输入模式(Insert mode)和底线命令模式(Last line mode)。这三种模式的作用分别是:...
2022-03-15 20:06:47 1557 1
原创 Linux——常用基本命令
Linux学习——常用基本命令Linux系统关机登陆系统目录常用的基本命令目录管理基本属性文件内容查看Linux链接概念Linux系统关机在linux领域内大多用在服务器上,很少遇到关机的操作。毕竟服务器上跑一个服务是永无止境的,除非特殊情况下,不得已才会关机。关机指令为:shutdown ;sync #将数据由内存同步到赢哦安shutdown #关机指令shutdown -h 10 #计算机在10分钟后关机shutdown -h now #立马关机shutdown -h 20:25 #系
2022-03-15 20:06:31 271
原创 Java——面向对象
Java——面向对象面向对象对象的创建分析面向对象三大特性封装继承多态抽象类和接口抽象类接口内部类及OOP实战面向对象面向对象编程(Object-Oriented Programming, OOP)面向对象编程的本质就是:以类的方式组织代码,以对象的形式封装数据。三大特性:封装、继承、多态对象的创建分析类和对象的关系:类是一种抽象的数据类型,它是对某一类食物整体描述/定义,但是并不能代表某一个具体的事物。对象是抽象概念的具体实例。package com.oop.demo01;//学
2022-03-14 20:59:41 771
原创 Java——异常
Java——异常1 什么是异常2 异常体系结构3 Java异常处理机制4 自定义异常5 总结1 什么是异常异常分类:2 异常体系结构Error:Exception:3 Java异常处理机制抛出异常捕获一次异常处理五个关键字:try、catch、finally、throw、throwspackage com.exception;public class test01 { public static void main(String[] args) {
2022-03-14 20:59:19 140
原创 Java——常用工具API
Java——常用工具APIAPI简介Object类Scanner类String类StringBuilder和StringBuffer类Date和Calendar类基本类型的包装类API简介APIApplication Programming Interface,应用程序编程接口,这里指的是API文档,通常叫“Java文档”,是Java中提供的类的使用说明书。Java中组件的层次结构:模块(module)——>包(package)->类或接口(class/interface)
2022-03-14 20:58:40 743
原创 Java——常用工具_集合
Java——常用工具_集合集合简介List集合的特点和应用增强for循环和迭代器泛型简介Collections工具类Set集合的特点Map集合的特点和应用集合简介集合,简称集,是用来存储多个元素的容器。集合和数组的区别:java的集合体系:单列集合(Collection):List:ArrayList、Set:HashSet双列集合(Map:key, value):Map:HashMapList集合的特点和应用特点:可重复、有序(存取顺序相同)应用:List list = new Ar
2022-03-14 20:58:26 837
原创 Java——常用工具_IO流
Java——常用工具_IO流异常处理try_catchthrowsIO流概述File类字符流读写文件字符流读数据字符流写数据字符流拷贝文件缓冲流普通用法字节流读写文件字节流拷贝文件字节缓冲流拷贝文件异常处理异常的分类(Trowable):异常(Exception):合理的应用程序可能需要捕获的问题错误(Error):合理的应用程序不应该试图捕获的问题异常处理方式try…catch(finally):捕获,字节处理throws:抛出,交给调用者处理try_catch格式:try
2022-03-14 20:58:10 662
原创 java——基础
java——基础1 注释、标识符、关键字1.1 注释1.2 标识符2 数据类型3 类型转换4 变量、常量4.1 变量4.2 常量5 运算符6 包机制、JavaDoc6.1 包机制6.2 JavaDoc1 注释、标识符、关键字1.1 注释单行注释://多行注释:/* */public class HelloWorld { public static void main(String[] args) { //单行注释 System.out.println("H
2022-03-14 20:57:35 1171
原创 Java——数组
Java——数组1 数组声明创建2 数组使用3 多维数组4 Arrays类5 稀疏数组1 数组声明创建public class Demo1 { //变量类型 变量的名字 public static void main(String[] args) { //两种方法 int[] nums; //首选方法 1.声明一个数组 //int nums2[]; //2.创建一个数组 nums = new int[
2022-03-14 10:27:50 773
原创 Java——方法
Java——方法1 方法2 方法的定义及调用3 方法重载4 命令行传参5 可变参数6 递归1 方法public class Demo1 { public static void main(String[] args) { //实际参数:实际调用传递的参数 int sum = add(1,2); System.out.println(sum); } //形式参数:用来定义 public static int add(int
2022-03-14 10:26:08 299
原创 Java——流程控制
Java——流程控制1 用户交互Scanner2 顺序结构3 选择结构4 循环结构4.1 while 循环4.2 do … while 循环4.3 for 循环4.4 增强 for 循环5 break & continue1 用户交互Scanner可以通过Scanner类来获取用户的输入。基本语法:Scanner s = new Scanner(System.in);通过 Scanner 类的 next() 与 nextLine() 方法获取输入的字符串,在读取前一般需要使用 hasN
2022-03-14 10:25:33 338
原创 【Git 学习】
【Git学习】版本控制Linux常用命令Git基本理论Git项目搭建Git文件操作IDEA中集成GitGit分支版本控制常见的版本控制工具:Git、SVN(Subversion)、CVS、VSS、TFS、Visual Studio on line版本控制的分类(1)本地版本控制记录文件每次的更新,可以对每个版本做一个快照,或者记录补丁文件,适合个人用。(2)集中版本控制所有的版本数据都保存在服务器上,协同开发者从服务器上同步更新或上传自己的修改。所有的版本数据都保存在服务器上,用
2022-03-14 10:24:55 86
原创 Scala——基本语法
Scala基本语法1 语法的简单说明2 基本语法2.1 注释2.2 变量和常量2.3 标识符的命名规范2.4 字符串输出2.5 键盘输入2.6数据类型2.7 整数类型(Byte、Short、Int、Long)2.8 浮点类型(Float、Double)2.9 字符类型(Char)2.10 布尔类型:Boolean2.11 Unit类型、Null类型和Nothing类型2.12 类型转换2.12.1 数值类型自动转换2.12.2 强制类型转换2.12.3 数值类型和String类型间转换Scala是一门以J
2021-10-16 20:37:10 1004
原创 PyTorch——激活函数、损失函数
PyTorch——激活函数激活函数Loss及其梯度全连接层交叉熵激活函数与GPU加速激活函数torch.sigmoid:范围在[0,1],光滑可导,但在趋近0和1时容易出现梯度离散。torch.tanh:范围在[-1,1]torch.relu/F.relu:不可导,但计算简单常用F.softmaxLoss及其梯度MSE:autograd.gradloss.backwardGradient APIF.softmax全连接层nn.layer类方法:step 1:
2021-02-08 12:31:39 388
原创 PyTorch——基础
PyTorch——基础基础数据类型创建Tensor索引和切片基础数据类型Type:PS:GPU里的cuda类型与CPU里的不同,可以转换Dimension 0:常用于LossDimension 1:常用于biasDimension 2:常用于线性输入batchDimension 3:用于循环神经网络RNN输入Dimension 4:用于卷积神经网络CNN输入[b, c, h, w]Mixed:a.numel() 输入所有元素个数,内存大小创建TensorImport
2021-02-06 19:14:16 433
原创 Tensorflow2.0——LSTM
Tensorflow2.0——LSTM随着距离的增加,RNN无法有效的利用历史信息。而长短记忆神经网络——LSTM,能够学习长的依赖关系。LSTM的链状结构,有四层,这四层以特殊的方式进行交互。门(Gate)是一种可选地让信息通过的方式。 它由一个Sigmoid神经网络层和一个点乘法运算组成。Sigmoid神经网络层输出0和1之间的数字,这个数字描述每个组件有多少信息可以通过, 0表示不通过任何信息,1表示全部通过。LSTM有三个门,用于保护和控制细胞的状态。LSTM的三个门【Forget
2021-01-28 17:57:31 1665
原创 Tensorflow2.0——循环神经网络RNN
循环神经网络RNN时间序列表示波形图片文字Word embedding循环神经网络RNNRNN layer使用梯度离散和梯度爆炸梯度爆炸梯度离散时间序列表示波形[ b, 100, 1 ] :b条线,100个时刻,每个时刻有一个价格。图片[b, 28, 28] :b副图,共28个时刻,每个时刻取28个像素点。文字序列表示:[b, seq_len, feature_len]b个句子,seq_len每个句子单词数,feature_len每个单词的维度。可以根据需要调整b的位置:[word
2021-01-28 16:54:39 702
原创 Tensorflow2.0——卷积神经网络
Tensorflow2.0——卷积神经网络卷积神经网络卷积池化与采样经典卷积神经网络LeNet-5卷积神经网络卷积layers.Conv2Dweight&biasnn.conv2D池化与采样池化:Max/Avg pooling上采样:upsampleUpSampling2D:Relu:经典卷积神经网络LeNet-599.2%acc ;5/6layers...
2021-01-28 10:45:00 579
原创 Tensorflow2.0——过拟合问题
Tensorflow2.0——OverfittingOverfittingregularization/weight decay动量与学习率momentum动量learning rate decayEarly StoppingdropoutStochastic Gradient DescentOverfitting解决办法:1.增加数据量2.降低模型复杂度:控制网络结构、增加正则项(惩罚项)3.dropout4.数据增强5.测试数据在过拟合前停止迭代regularization/weight
2021-01-20 16:09:21 274
原创 Tensorflow2.0——keras
Tensorflow2.0数据集加载数据集加载keras.datasetsboston housing/Mnist/CIFAR10/100/imdbtf.Datasets.from_tensor_slices1.Mnist手写数据集2.CIFAR10/100from_tensor_slices():将numpy格式转换为tensor格式,还可以同时接收x和y,0存放特征数据,1存放标签。shufflemapbatchrepeat 重复迭代数据集
2021-01-20 11:13:10 369
原创 Tensorflow2.0——高阶操作
Tensorflow2.0——高阶操作高阶操作合并与分割数据统计高阶操作合并与分割Merge and split:tf.concat、tf.stacktf.split、tf.unstack1.concat:可以指定维度合并(其他维度相同),不能增添维度2.tf.stack:其他维度相同,可以增添维度,默认是在axis=0维度添加。3.tf.unstack:把指定维度拆分,全为一维4.tf.split数据统计...
2020-12-26 20:02:29 325
原创 Tensorflow2.0——基础
Tensorflow2.0——基础Tensorflow基础Tensorflow数据类型创建tensorTypical Dim DataTensorflow基本操作索引和切片维度变化Tensorflow基础Tensorflow数据类型scalar:标量1.1vector:向量[1.1],[1.1,2.2]matrix:矩阵[[1.1,2.2],[3.3,4.4]]tensor:所有数据类型int、float、doublebool、string【基本操作】【数据类型转换】创建tens
2020-12-24 22:54:23 340
原创 Tensorflow基础——基础操作
Tensorflow基础Tensorflow基础基础概念图op会话张量tensorboard可视化线性回归的实现模型保存和加载Tensorflow基础基础概念tensor:张量(数据)operation(op):专门运算的操作节点,所有操作都是一个opgraph:图,整个程序的结构Session:会话,运算程序的图Tensorflow属于计算密集型,大多是在cpu上进行计算。django、scrapy属于IO密集型,比如http请求,磁盘操作等等。图图默认已经注册,一组表示 tf.O
2020-12-14 08:39:24 218
原创 Mysql——案例题
Mysql——案例题一、取得每个部门最高薪水的人员名称1.第一步:找出每个部门的最高薪水mysql> select deptno,max(sal) as maxsal from emp group by deptno;2.将以上查询结果当做临时表t,t表和emp e表连接,条件:t.deptno=emp.deptno and e.sal = t.maxsal;mysql> select e.ename,t.* -> from -> emp e -
2020-12-06 11:14:04 800
原创 Mysql——事务/索引/视图/三范式
Mysql——事务/索引/视图/三范式事务Transaction事务概述事务原理事务特性事务之间的隔离性演示事务索引视图DBA命令数据库设计三范式事务Transaction事务概述1.事务一个事务是一个完整的业务逻辑单元,不可再分。比如:银行账户转账,从A账户向B账户转账10000,需要执行两条update语句:update t_act set balance = balance - 10000 where actno = 'act-001';update t_act set balance
2020-12-04 17:16:38 221
原创 Mysql——约束、存储引擎
Mysql——约束约束非空约束 not null唯一性约束unique主键约束约束1.在创建表的时候,可以给表的字段添加相应的约束,添加约束的目的是为了保证表中数据的合法性、有效性、完整性。2.常见的约束:(1)非空约束(not null):约束的字段不能为NULL(2)唯一约束(unique):约束的字段不能重复(3)主键约束(primary key):约束的字段既不能为NULL,也不能重复(简称PK)(4)外键约束(foreign key):…(简称FK)(5)检查约束(check):注
2020-12-04 11:11:28 341
原创 Mysql——子查询、分页查询、表的增删改
Mysql——子查询where语句中使用子查询from后嵌套子查询select后嵌套子查询Unionlimit 分页查询表创建表增加/删除/修改表结构子查询子查询就是嵌套的select语句,可以理解为子查询是一张表。select语句当中嵌套select语句,被嵌套的select语句是子查询。select …(select).from …(select).where …(select).where语句中使用子查询案例:找出高于平均薪资的员工信息#第一步:找出平均薪资mysq
2020-12-03 22:29:03 201
原创 Mysql——连接查询
Mysql——连接查询连接查询分类笛卡尔乘积现象内连接之等值连接内连接之非等值连接自连接外连接连接查询连接查询,也可以叫跨表查询,需要关联多个表进行查询。在实际开发中,大部分的情况下都不是从单表中查询数据,一般都是多张表联合查询取出最终的结果。一般一个业务都会对应多张表(表之间存在关系,这样可以减少数据的冗余。)连接查询分类(1)根据语法出现的年代:sql92,sql99(较新)。(2)根据连接方式划分:内连接:等值连接、非等值连接、自连接外连接:左外连接(左连接),右外连接(右连接)自连
2020-12-02 19:22:10 161
原创 机器学习算法进阶——HMM
HMM——理论、实践隐马尔可夫 HMMHMM举例概率计算问题Baum-Welch算法预测算法(近似算法、Viterbi算法)隐马尔可夫 HMMHMM举例概率计算问题Baum-Welch算法预测算法(近似算法、Viterbi算法)
2020-11-24 22:27:51 215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人