自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据结构与算法笔记(十七)—— 贪心算法及经典案例(找零问题、背包问题、拼接最大数字问题、活动选择问题)

一、贪心算法贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。贪心算法并不保证会得到最优解,但是在某些问题上贪心算法的解就是最优解。要会判断—个问题能否用贪心算法来计算。二、经典案例2.1、找零问题问题描述: (钱数量最少)假设商店老板需要找零n元钱,钱币的面额有:100元、50元、20元、5元、1元,如何找零使得所需钱币的数量最少?代码实现:t = [100,50,20,5,1] #币值

2021-10-18 17:27:43 1634

原创 学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作

三、Spark DataSet基本操作3.1、DataSet简介DataSet是分布式的数据集合,DataSet提供了强类型支持,也是在RDD的每行数据加了类型约束。DateSet整合了RDD和DataFrame的优点,支持结构化和非结构化数据。DataFrame表示为DataSet[Row],即DataSet的子集。DataSet是面向对象的编程接口,可以通过JVM的对象进行构建DataSet。3.1.1、DataFrame的缺点编译时不能类型转化安全检查,运行时才能确定是否有问题

2021-10-13 18:50:59 1053

原创 学习笔记Spark(七)—— Spark SQL应用(2)—— Spark DataFrame基础操作

二、Spark DataFrame基础操作2.1、DataFrameDataFrame是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表。数据集的每一列都带有名称和类型,对于数据的内部结构又很强的描述性。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。...

2021-10-10 10:20:01 1989

原创 学习笔记Spark(六)—— Spark SQL应用(1)—— Spark SQL简介、环境配置

一、Spark SQL简介1.1、Spark SQL特性Spark SQL是Spark Core之上的一个组件,它引入了一个称为SchemaRDD的新- 数据抽象,它为结构化和半结构化数据提供支持提供了DataFrame、DataSet的编程抽象可以充当分布式SQL查询引擎Spark SQL是spark套件中一个模板,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于Hive通过SQL的形式将数据的计算任务转换成了MapReduce。Spark SQL也可以用来从

2021-10-09 00:52:06 624

原创 学习笔记Spark(五)—— 配置Spark IDEA开发环境

一、配置Spark开发环境1. 1、配置Spark开发依赖包创建一个Scala工程(scala插件及工程创建教程:https://www.cnblogs.com/frankdeng/p/9092512.html)点击菜单栏中的“File”->“Project Structure”,打开右上图所示的界面选择“Libraries” 单击“+”按钮,选择“Java”选项在弹出的界面中找到Spark安装包下的“jars”文件夹,事先删除该目录下的commons-compiler-3.0.

2021-10-08 21:39:25 2264

原创 学习笔记Spark(四)—— Spark编程基础(创建RDD、RDD算子、文件读取与存储)

文章目录一、创建RDD1.1、启动Spark shell1.2、创建RDD1.2.1、从集合中创建RDD1.2.2、从外部存储中创建RDD任务1:二、RDD算子2.1、map与flatMap算子应用2.1.1、map2.1.2、flatMap2.1.3、mapPartitions2.2、sortBy与filter算子应用2.2.1、sortBy2.2.2、filter任务2:2.3、交集与并集计算的算子应用2.3.1、distinct2.3.2、union2.3.3、intersection2.3.4、su

2021-10-08 11:31:47 7300 1

原创 学习笔记Spark(三)—— Spark架构及原理(spark架构、spark RDD)

一、Spark架构 1.1、基本组件Cluster Manager在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。Worker从节点,负责控制计算节点,启动Executor或者Driver。在YARN模式中为NodeManager,负责计算节点的控制。Driver运行Application的main()函数并创建SparkContext。Executor执行器,在worker node上执行任务的组件、用于启动线程池运行任

2021-10-07 19:22:18 826

原创 学习笔记Spark(二)—— Spark集群的安装配置

一、Spark集群拓扑1.1、集群规模192.168.128.10 master 1.5G ~2G内存、20G硬盘、NAT、1~2核 ;192.168.128.11 node1 1G内存、20G硬盘、NAT、1核192.168.128.12 node2 1G内存、20G硬盘、NAT、1核192.168.128.13 node3 1G内存、20G硬盘、NAT、1核1.2、Spark的安装模式1、本地模式在一个节点上安装Spark,利用本地线程运行程序,非分

2021-10-07 11:50:45 1584

原创 学习笔记Spark(一)—— Spark入门

一、Spark简介什么是Spark?快速、分布式、可扩展、容错的集群计算框架;Spark是基于内存计算的大数据分布式计算框架;低延迟的复杂分析;Spark是Hadoop MapReduce的替代方案。二、Spark的发展历史对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。目前,Spark已经成为Apache软件基金会旗下的顶级开源项目。下面是Spark的发展历程简述:2009年,Spark诞生于伯克利大学AMPLab,最初属

2021-10-07 00:45:56 636

原创 学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理

一、背景与目标1.1、背景1.、行业内竞争民航的竞争除了三大航空公司之间的竞争之外,还将加入新崛起的各类小型航空公司、民营航空公司,甚至国外航空巨头。航空产品生产过剩,产品同质化特征愈加明显,于是航空公司从价格、服务间的竞争逐渐转向对客户的竞争。2.、行业外竞争随着高铁、动车等铁路运输的兴建,航空公司受到巨大冲击。客户营销战略倡导者Jay & Adam Curry从国外数百家公司进行了客户营销实施的经验中提炼了如下经验:公司收入的80%来自顶端的20%的客户。20%的客户其利润率1

2021-10-06 22:09:21 2725

原创 学习笔记Hive(八)—— 查询优化

一、视图1.1、Hive的视图视图是基于数据库的基本表进行创建的一种伪表,数据库中储存视图的定义,不存数据项,数据项仍然存在基本表中它可作为一个抽象层,将数据发布给下游用户。目前 Hive 版本支持逻辑视图,不支持物理视图。所以 Hive 的数据仓库目录查找不到视图,但可在 Mysql 的元数据库中查找到。视图只能查询,不能进行数据的插入和修改,可以提高数据的安全性。在创建视图时候视图就已经固定,对基表的后续更改(如添加列)将不会反映在视图。view定义中若包含了ORDER BY/LIMIT语

2021-10-06 20:56:24 1084

原创 学习笔记Hive(七)—— 自定义函数

一、自定义函数简介1.1、函数类型UDF:用户定义函数UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)UDAF:用户定义聚集函数UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。UDTF:用户定义表生成函数UDTF 操作作用于单个数据行,并且产生多个数据行。比如explode。二、自定义UDF定义一个udf,实现根据输入的日期,输出一个时段, 2:00-5:00凌晨,5:00-12:0

2021-10-06 00:53:08 2119 1

原创 学习笔记Hive(六) —— Hive开发应用

一、任务1.1、商品零售购物篮分析现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。繁杂的选购过程往往会给顾客疲惫的购物体验。1.2、了解顾客需求1.3、任务目标创建订单表和物品分类表统计顾客数量和商品购买数量统计各类型商品的购买情况统计所有商品中排名前20的热销商品统计不同类别商品中排名前10的热销商品将同一个客户的订单整合为一列并写入HDFS二、Hive 开发环境2.1、搭建开发环境在Eclips

2021-10-05 23:50:13 1898 1

转载 重置密码遇到ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using passwor:yes)问题

Mysql重置密码,解决ERROR 1045 (28000)错误的方法</div>一般这个错误是由密码错误引起,解决的办法自然就是重置密码。假设我们使用的是root账户。1.重置密码的第一步就是跳过MySQL的密码认证过程,方法如下:#vim /etc/my.cnf(注:windows下修改的是my.ini)在文档内搜索mysqld定位到[mysqld]文本段:/mysqld(在vim编辑状态下直接输入该命令可搜索文本内容)在...

2021-10-01 20:57:33 6972

数字图像图像增强、加噪课设(matlab).zip

数字图像图像增强、加噪课设(matlab).zip

2021-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除