自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark究极复习

1. 大数据计算体系大数据计算体系:数据存储系统、数据处理系统、数据应用系统数据存储系统:包括数据采集层(系统日志、网络爬虫、无线传感器网络、物联网、以及各种数据源);数据清洗、抽取与建模(将各种类型的结构化、非结构化、异构数据转化为标准存储格式数据,并定义数据属性及值域);数据存储架构(集中式/分布式文件系统、关系型数据库/分布式数据库、行存储数据结构/列存储数据结构、键值对结构、哈希表检索);数据统一接口等。数据处理系统:包括针对不同类型数据的计算模型,如针对海量数据的MapReduce批处理

2021-06-23 15:09:51 315 1

原创 HUBU期末复习_大数据分析与内存计算_RDD部分

Spark RDD编程1. 创建Spark连接// Spark连接配置,setMaster为Spark程序运行位置,一般使用local在本地运行,也可以在cluster上运行;setAppName是Spark程序的名称val conf = new SparkConf().setMaster("local[*]").setAppName("Name")// 设置并行度,也即当前环境可用的核数量,可以不配置,默认为totalCores(也即当前环境最大可用核数量)//conf.set("spark.

2021-06-21 14:08:37 628

原创 _01_Spark基础

spark期末复习一、Spark基础1. Spark与Hadoop的区别时间节点上来看Hadoop在2006·1开始开发,2008·1成为apache顶级项目,2011年发布1.0版本,2013年10月发布2.x版本(Yarn)Spark2009年诞生,2013·6称为apache项目,2014·2成为顶级项目,2015至今开始大量重点使用Spark组成上来看Hadoop由Java编写,是一个在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架。HDFS是其分布式文件系统

2021-06-10 09:09:48 122

原创 SQL回炉重造10_数据过滤_子查询

子查询1. 子查询与过滤子查询(subquery):即嵌套在其他查询中的查询,MySQL4.1之后开始支持子查询/*列出订购物品TNT2的所有客户:(1) 检索包含物品TNT2的所有订单的编号。(2) 检索具有前一步骤列出的订单编号的所有客户的ID。(3) 检索前一步骤返回的所有客户ID的客户信息。*/# 不使用子查询SELECT cust_name, cust_contactFROM customers as c, orders as o, orderitems as oiW

2021-05-22 13:55:08 161 1

原创 SQL回炉重造09_数据过滤_数据分组GROUP BY

数据过滤——分组数据1. 数据分组GROUP BY子句:实现将数据分为多个逻辑分组,对每个分组进行聚合计算GROUP BY子句可以包含任意数目的列,这使得其可以对分组进行嵌套,为数据分组提供更细致的控制;如果在GROUP BY子句中嵌套了分组,数据将会在最后规定的分组上进行汇总,也就是说,建立分组时指定的所有列都会在一起计算(不可以从个别列取回数据)GROUP BY 子句列出的每个列都必须是检索列或是有效的表达式(但不可以是聚合函数),如果在SELECT中使用表达式,则必须在GROUP BY

2021-05-20 20:07:16 214

原创 SQL回炉重造08_数据过滤_聚合函数

汇总数据1. 聚集函数聚集函数(aggregate function):运行在行组上,计算和返回单个值的函数作用:对表中数据进行汇总,如确定表中行数(或满足某个条件/特定值的行数),获得表中行组的和,找出表列中极值、平均值等SQL聚集函数:函数说明AVG()返回某列的平均值COUNT()返回某列的行数MAX()返回某列的最大值MIN()返回某列的最小值SUM()返回某列值之和1.1 AVG()函数AVG()函数

2021-05-19 17:23:48 123

原创 数据分析基础学习_Matplotlib_常见图形及绘制(折线图/散点图/柱状图/直方图/饼图)

1.3 常见图形及绘制matplotlib可以绘制折线图、散点图、柱状图、直方图、饼图1.3.1 常见图形种类及意义折线图:以折线的上升或下降来表示统计量的增减变化的统计图特点:可以显示数据的变化趋势,反映事物变化情况。(变化)api:plt.plot(x,y)散点图:用两组数据构成多个坐标点,考察坐标点的分布,从而判断两个变量之间是否存在某种关联或总结坐标点的分布模式。特点:判断变量之间是否存在数量关联趋势,展示离群点(分布规律)api:plt.scatter(x,y)

2021-05-18 21:42:47 1398

原创 SQL回炉重造07_函数

数据处理函数函数的可移植性没有SQL强:能够运行在多个系统上的代码称为可移植的(portable);SQL的可移植性比较好,在SQL实现之间有差异时,比较好处理;然而函数的可移植性却很差,差异很大。如果决定使用函数,一定要做好注释,以便以后可以确切地知道SQL代码的含义。大多数SQL实现支持以下类型的函数:用于处理文本串的文本函数(如删除或填充值,转换值为大写或小写等)用于在数值数据上进行算术操作的数值函数(如返回绝对值,进行代数运算等)用于处理日期和时间值并从这些值中提取特定成分的日期和时间

2021-05-18 13:21:41 153 3

原创 数据分析基础学习_Matplotlib_以折线图为例的基础绘图

1. Matplotlib1.1 基础学习目标目标快速掌握matplotlib画图预览1.1.1 什么是matplotlib1.1.2 为什么要学习matplotlib1.1.3 实现一个简单的matplotlib画图1.1.4 matplotlib图像结构1.1.5 matplotlib三层结构容器层辅助显示层图像层1.1.1 什么是matplotlib用于开发二维图表(三维也可以)使用简单,以渐近、交互方式实现数据可视化

2021-05-14 16:10:42 392 1

原创 SQL回炉重造04_数据过滤_通配符&LIKE

数据过滤——通配符通配符(wildcard):用来匹配值的一部分的特殊字符搜索模式(search pattern):由字面值、通配符或两者组合构成的搜索条件LIKE操作符:为了在搜索子句使用通配符,需要使用LIKE操作符,LIKE操作符指示数据库,后面跟着的搜索模式会利用通配符匹配而不是直接相等匹配。谓词(predicate):从技术上讲,LIKE是谓词而不是操作符,虽然最终得到的结果是相同的。1. 百分号%通配符%通配符是最常使用的通配符,在搜索串中,%表示任何字符出现任意次数区

2021-05-11 10:30:38 94

原创 SQL回炉重造06_计算字段

计算字段计算字段:直接从数据库中检索出转换、计算或格式化过的数据;计算字段并不实际存在于数据库表中,而是运行时在SELEC语句内创建的。字段(field):基本上与列(column)的意思相同,经常互换使用,不过数据库的列一般还是称为列,而字段则常用在计算字段的连接上。1. 拼接字段拼接(concatenate):将若干个值连结到一起构成单个值Concat()函数:在MySQL的SELECT语句中,使用Concat()函数来完成两个列的拼接。注意:多数DBMS使用+或||来实现拼接,但M

2021-05-11 10:29:10 86

原创 SQL回炉重造05_数据过滤_正则表达式

数据过滤——正则表达式正则表达式(Regular Expression):是用来匹配文本的特殊的串(字符集合)。作用是匹配文本,将一个模式(正则表达式)与一个文本串进行比较。但要注意,MySQL中的正则表达式仅支持正则表达式中的一小部分内容!1. 基本字符匹配——特殊字符(.)REGEXP关键字:正则表达式的标识符,用于告诉数据库后面所跟的内容为正则表达式处理。特殊字符**(.)**:作用是匹配任意一个字符匹配不区分大小写:MySQL中的正则表达式匹配默认不区分大小写,为了实现区分

2021-05-10 21:29:50 277

原创 SQL回炉重造03_数据过滤_WHERE/NOT/IN

数据过滤1. WHERE子句1.1 WHERE子句基础语法数据库表中一般会包括大量数据,我们很少会检索表中所有的行。通常只需要根据特定条件提取需要的行即可。只检索所需数据需要指定搜索条件(search criteria),搜索条件也称为过滤条件(filter condition)。语法SELECT colNameFROM tableNameWHERE filterCondition;# 例SELECT prod_name,prod_priceFROM productsWH

2021-05-04 10:49:48 346

原创 SQL回炉重造02_数据检索_SELECT&ORDERBY

查询SELECT语句:SELECT语句的用途是从一个或多个表中检索数据,需要给出两条信息:选择什么&&从什么地方选择。1. 检索数据基础——SELECT语句1.1 检索单个列语法:SELECT colNameFROM tableName;数据顺序:在没有指定查询排序结果的情况下,返回数据的顺序是没有特殊意义的。结束SQL语句:多条SQL语句需要以分号(;)结尾注意:某些DBMS可能需要每一句单句SQL语句结尾都要加分号SQL语句大小写:SQL语句

2021-05-04 09:09:17 113

原创 SQL回炉重造01_Introduction

Introduction to SQL1. 数据库基础知识数据库(database):保存有组织的数据的容器(通常是一个文件或一组文件)注:我们平常使用的软件是数据库管理系统(DBMS),数据库DB是通过DBMS创建和操纵的容器。表(table):表是一种结构化的文件,可以用来存储某种特定类型的数据。存储在表中的数据应该是一种类型的数据,例如不可以将学生清单和课程清单存储在同一个表中,这会导致后续的检索和访问很困难。表的名字即是表在数据库中的标识符,因此在同一个数据库中表的名字应该

2021-05-03 16:38:31 68

原创 Python基础复习10_异常

异常Outline了解异常异常的写法捕获异常异常的else异常的finally异常的传递自定义异常1. 了解异常当解释器检测到一个错误时,就无法继续执行了,反而会出现一些错误提示,这就是所谓的异常例如:以r方式打开一个不存在的文件file = open('test2.txt','r')---------------------------------------------------------------------------FileNotFoundError

2021-05-02 20:59:21 103

原创 Python基础复习09_面向对象特性

面向对象特性1. 继承Outline·继承概念·单继承/多继承·子类重写/调用父类的同名属性和方法·多层继承·super()·私有属性和私有方法1.1 继承的概念继承指的是多个类之间的所属关系,即子类默认继承父类的所有属性和方法·拓展:经典类(旧式类)与新式类·不由任意内置类型派生出的类称为经典类·也即:继承了object类的是新式类,没有继承object类的是经典类·注意:在python3中所有自定义类的基类都会默认继承object类,也即py3中所有类都是新式类# 经典类

2021-05-02 16:17:58 121 1

原创 Python基础复习08_面向对象基础

面向对象基础1. 类和对象1.1 类类是指对一系列具有相同特征和行为的事物的统称,是一个抽象的概念,不是真实存在的事务·特征 ==> 属性·行为 ==> 方法类是用来创建对象的1.2 对象对象是类创建出来的真实存在的事物·开发中,先有类,再有对象2. 面向对象2.1 定义类·语法:class ClassName(): ... ...·注意:类名要满足标识符命名规则,习惯上遵循大驼峰命名·拓展:经典类(不由任何内置类型派生出的类叫经典类)2.2 创

2021-05-02 11:44:13 82

原创 Spark学习_02_运行模式和架构

Spark运行环境和架构1. Spark运行环境Spark作为一个数据处理框架和计算引擎,它被设计在所有常见的集群环境下运行,目前主流环境是基于Hadoop的Yarn环境,docker环境也在慢慢流行起来Spark的运行环境目前分为三种模式:local模式、standalone模式和Yarn模式1.1 local模式local模式是不需要其他任何节点资源就可以在本地执行Spark程序的环境,一般用于学习、调试等安装不需要额外配置,解压到你想放的路径即可· 提交应用bin/spark-subm

2021-04-23 19:51:25 2084 4

原创 Spark学习_01_概述

Spark一、spark概述1. spark​ · spark是一种由Scala语言开发的快速、通用、可拓展的大数据分析引擎​ · spark core中提供了spark最基础与最核心的功能​ · spark SQL是spark用来操作结构化数据的组件。通过spark SQL,用户可以使用SQL或者apache Hive版本的HQL来查询数据​ · spark streaming是spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API总结:spark出现的时间较晚,且主

2021-04-23 19:48:28 145

原创 Python基础复习07_函数

函数Outline·1.作用·2.使用步骤·3.参数·4.返回值·5.说明文档·6.函数嵌套·7.变量作用域·8.多函数程序执行流程·9.返回值进阶·10.参数进阶·11.拆包和交换两个变量的值·12.引用·13.可变与不可变类型·14.递归·15.lambda表达式·16.高阶函数1. 函数的作用·函数是将 一段具有独立功能的代码块整合到一个整体并命名,在需要的位置 调用这个名称即可完成对应的需求·函数在开发过程中,可以高效地实现 代码重用2. 函数的使用步骤2

2021-04-16 21:11:23 785

原创 Python基础复习06_推导式

推导式1. 列表推导式(又叫列表生成式)·作用:用一个表达式创建一个有规律的列表或控制一个有规律列表# 需求:创建一个0-10的列表# 1. while循环实现list1 = [] # 先创建一个空列表i = 0 # 计数器while i < 10: list1.append(i) i += 1print(f"list1:{list1}")# 2. for循环实现list2 = []for i in range(10): list2.app

2021-04-15 20:49:55 178

原创 Python基础复习05_容器公共操作

数据序列公共操作1. 运算符运算符描述支持的容器类型+合并字符串、列表、元组*复制字符串、列表、元组in元素是否存在字符串、列表、元组、字典not in元素是否不存在字符串、列表、元组、字典1.1 +# 1. 字符串str1 = 'lcj'str2 = 'nb'str3 = str1 + str2print(str3)# 2. 列表list1 = [1,2,3]list2 = [100,999,333]list3 = li

2021-04-15 19:43:01 219

原创 Python基础复习04_集合

集合1. 创建集合·创建集合使用{}或者set(),但是如果要创建空集合则只能使用set(),因为{}是用来创建空字典的。·特点:集合可以去掉重复数据; 集合是无序的,故不支持下标; # 集合# 创建集合---使用{}s1 = {10,20,30,40,50} # 没有重复数据s2 = {10,20,30,30,40,40,40,50} # 有重复数据print(s1,s2,sep='\n')# 创建集合——使用set()s3 = set('kamenriderde

2021-04-13 23:09:29 181 1

原创 Python基础复习03_字典

字典1. 应用场景&&定义·数据顺序发生变化,每个数据的下标也会随之变化,如何保证数据顺序变化前后能使用同一的标准查找数据呢?·字典 --> 字典中数据以 键值对形式出现,字典数据与数据顺序没有关系,也即 字典不支持下标,后期无论数据如何变化,都只需要按照对应的键的名字查找数据即可。2. 语法·特点:符号:大括号 数据:键值对形式出现 各个键值对之间以逗号隔开 ·注意:一般称冒号前的为键key,简称k;冒号后面的为值value,简称v# 定义/创建字典

2021-04-13 17:13:57 145

原创 Python复习02_元组

元组1.应用场景·需求:想要存储多个数据,且数据不可修改·列表→数据可以修改×·元组→可以存储多个数据,且元组内数据不可修改√2.定义·特点:定义元组使用 (小括号),且用 逗号隔开各个数据,数据可以为不同数据类型·注意:如果定义的元组只有一个数据,那么在这个数据后面也要添加逗号,否则数据类型为这个唯一数据的类型# 定义元组# 多个数据t1 = (1,2,3)# 单个数据t2 = (1,)#注意:定义单个数据print(type(t2))t3 = (1)print(type

2021-04-13 17:13:12 107

原创 Python基础复习_列表

列表1. 简介2. 下标、查找函数·index():返回指定数据所在位置的下标语法:列表序列.index(数据,开始位置下标,结束位置下标)注:查找数据不存在则报错·count():统计指定数据在当前列表中出现的次数·len():访问列表长度,即列表中数据的个数name_list = ['acx','lcj','ggl','wdnmd','lcj']# index()print(name_list.index('ggl'))#print(name_list.index('gsl'))

2021-04-11 23:34:20 173 4

原创 算法学习2:分治法解决最大子数组问题(Java实现)

package experiment.MaxSubArray;/*使用分治法解决最大子数组问题输入:数组X、数组下标low,high输出:最大子数组之和Smaxif low = high then return X[low]endelse mid = (low+high)/2; S1 = MaxSubArr(X,low,mid); S2 = MaxSubArr(X,mid+1,high); S3 = CrossingSubArr(X,low,mid,hi

2020-12-03 19:43:05 431

原创 分布式事务管理_笔记

分布式事务管理概述1.分布式事务的特点全局事务:分布式数据库的事务。一个全局事务在执行时分解为由若干与相应站点有关的操作序列组成的“子事务”。和集中式事务一样,都要有:原子性、隔离性、一致性、持久性还要注意的是:系统效率、系统可用性(既不能影响本站点上事务的执行,也不能影响其他站点上事务的执行)2.分布式事务代理执行机制两阶段提交协议宏观上的执行过程阶段1 表决阶段:对当前事务形成一个决定1.协调者:·写“开始事务”日志;·向各个参与者发出“准备”命令;·进入等待状态。2.对于

2020-11-24 19:18:09 482

原创 移动开发技术3:基于广播组件的简易音乐盒设计

移动开发技术3:基于广播组件的简易音乐盒设计需求分析:本次实验目标为完成一个基于广播组件的简单音乐盒需要实现的功能:播放、暂停、结束、上一首、下一首BroadcastReceiver简述BroadcastReceiver是Android四大组件之一,是用来接收来自系统和应用中的广播。BroadcastReceiver有两种注册方式,分别是静态注册和动态注册。静态注册注册方式:在AndroidManifest里进行注册。首先在Application节点里头,添加一个receiver节点。nam

2020-11-23 16:44:18 2054 6

原创 算法学习1:定容字符串栈的Java实现

算法学习1:定容字符串栈的Java实现代码import java.io.File;import java.io.FileNotFoundException;import java.util.Scanner;/**定容字符串栈(数组实现)* 成员变量:* String[] a数组用于存储字符串* int N 用于存储数组大小* 成员方法:* 构造方法 CapacityStack(int cap)* push(String item) 添加字符串* pop() 删

2020-11-17 23:34:05 171 1

原创 移动开发技术2:RecyclerView控件的使用

移动开发技术2:RecyclerView控件的使用RecyclerView控件简介这是一个非常方便且使用广泛的控件,仅使用RecyclerView控件即可完成ListView,GridView,瀑布流三种效果;更重要的是,它支持自定义布局方式。ListView效果:GridView和瀑布流的效果还在制作中,待完善RecyclerView控件使用对于RecyclerView控件的使用,其实是有套路的。首先是数据(Data),然后是适配器,接着是对应的控件;放到本次要首先完成的ListView

2020-11-06 22:55:59 368

原创 Java输入中nextInt后接nextLine值为空的问题

Java输入中nextInt后接nextLine值为空的问题问题今天在学Java基础问题做学生管理系统的时候遇到一个小问题,代码如下: public static void addStu(ArrayList<HubuStudent> studentList){ //添加学生 HubuStudent stu = new HubuStudent(); Scanner sc = new Scanner(System.in);

2020-10-20 19:51:11 818 2

原创 移动开发技术1:微信页面的实现

移动开发技术1:微信页面的实现需求分析:本次实验需求为完成一个类微信主页面的实现,具体需求为1.上中下三块内容分别为标题,显示内容,切换按钮。2.底部选择框发生改变时,中间显示内容发生相应改变。完成结果展示:实现思路实验分为两个部分:界面UI设计以及页面控制UI设计部分首先完成顶部标题的设计与底部按钮布局的设计标题使用垂直线性布局并设置标题在正中间即可底部按钮布局使用水平线性布局,将四个按钮的垂直布局嵌套在页面的水平布局中即可...

2020-10-14 22:31:36 1079 4

原创 基于Hadoop的Spark集群搭建

title: Spark集群搭建date: 2020-03-19 19:30:31tags: Hadoop基于Hadoop的Spark集群搭建准备Spark三种运行模式简介Local模式Local 模式是最简单的一种Spark运行方式,它采用单节点多线程(cpu)方式运行,local模式是一种OOTB(开箱即用)的方式,只需要在spark-env.sh导出JAVA_HOME,无需其他任何配置即可使用,因而常用于开发和学习方式:./spark-shell - -master loca.

2020-10-13 16:52:18 1060 1

原创 Hadoop单机模式-伪分布式搭建

title: Hadoop单机模式/伪分布式搭建date: 2020-03-18 23:34:17tags: HadoopHadoop单机模式/伪分布式搭建准备Hadoop三种安装模式简介Hadoop共有三种安装模式可以使用:单机模式、伪分布式、完全分布式1.Hadoop单机模式单机模式是Hadoop默认的安装模式,这种安装模式主要就是并不配置更多的配置文件,只是保守的去设置默认的几个配置文件中的初始化参数,他并不与其他节点进行交互,并且也不使用HDFS文件系统,它主要就是为了调试MapR.

2020-10-13 16:50:39 2592

原创 CentOS安装与联网

title: CentOS安装与联网date: 2020-03-14 21:15:17tags: HadoopCentOS7虚拟机安装与联网实验环境:VMware,CentOS7_x64准备下载并安装VMware用于安装虚拟机,下载CentOS7镜像CentOS7安装选用安装配置类型选用自定义类型配置创建虚拟机选择下载的镜像文件单击浏览,选择自己的镜像下载到的本地的位置如果提示“无法检测此光盘映像中的操作系统”可以忽略,直接下一步为虚拟机命名并选择安装位置其他步骤使用默认.

2020-10-13 16:48:41 791

原创 win10 VScode配置C/C++环境

title: win10在VScode上配置C/C++环境date: 2020-03-13 22:09:15tags: ‘C/C++’win10 VScode配置C/C++环境一、下载需要的工具1.下载VScode2.安装cpptools工具打开VScode,按照以下步骤安装3.安装code runner工具在VScode中编译文件,结束后并不会像我们经常使用的IDE一样,终端会停留在面前然后告诉你“按任意键继续”,在VScode中,编译运行完成后往往cmd会一闪而过,然后直接:Th.

2020-10-13 16:45:08 7646 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除