Spark
文章平均质量分 97
Thomson617
岁月静好,仍需负重前行!
向着未来努力奔跑,奋斗之年永不停歇!
展开
-
Spark Machine Learning(SparkML):机器学习(部分三)
8.协同过滤(Collaborative Filtering)协同过滤是一种推荐算法,根据用户对物品的偏好构建稀缺矩阵,并计算其对其他物品的喜好程度,通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。spark.ml目前支持基于模型的协同过滤,其中用户和产品由可用于预测缺失条目的一小组潜在因素描述。spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。实现中spark.ml包含以下参数:(1).numBlocks是用户和项目将被分区为多个块的数量,以便并行化计算(默...原创 2020-09-09 14:26:06 · 3415 阅读 · 0 评论 -
Spark Machine Learning(SparkML):机器学习(部分二)
6.分类和回归分类与回归都是有监督学习,本质是一样的,都是特征(feature)到结果/标签(label)之间的映射,只不过分类的结果是离散值,回归是连续的。区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题。6.1分类(Classification)分类问题的目标是预测类别标签(class label),这些标签来自预定义的可选列表。分类问题有时可分为二分类(binary classification,在两个原创 2020-09-08 11:17:13 · 2610 阅读 · 0 评论 -
Spark Machine Learning(SparkML):机器学习(部分一)
机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html]Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML还提供了用于构建工作流的ML管道、用于调优参数的交叉验证器以及用于保存和加载模型的模型持久性等工具。其目标是使实用的机器学原创 2020-09-04 12:19:18 · 9534 阅读 · 0 评论 -
MySQL、Oracle、Sql Server、Hive、Spark SQL、Flink SQL总结
本文主要讲解各类SQL语言的优缺点、数据类型及SQL语法的区别,其它区别可参加各官网MySQL官网地址:https://dev.mysql.com/doc/refman/8.0/en/programs.html优点:(1).体积小、速度快、总体拥有成本低,支持多种操作系统,使用简单,开放源码,稳定性高;(2).提供的接口支持多种语言连接操作。可以工作在不同的平台上。支持C、C++、Jav...原创 2019-02-20 17:19:25 · 5733 阅读 · 0 评论 -
Spark Streaming算子篇详解
Spark Streaming是核心Spark API的扩展,它支持对实时数据流进行可伸缩、高吞吐量和容错的流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多个源获取,也可以使用map、reduce、join和window等高级函数表示的复杂算法进行处理。最后,可以将处理过的数据推送到文件系统、数据库和实时仪表板。事实上,您可以将Spark的机器学习和图形处理算法应用于数据...原创 2019-02-20 10:48:09 · 4282 阅读 · 2 评论 -
Spark算子篇详解
Transformations下表列出了Spark支持的一些常见转换。有关详细信息,请参考RDD API文档(Scala、Java、Python、R)和成对RDD函数文档(Scala、Java)。https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operationshttps://spark.apache....原创 2019-02-19 17:17:06 · 505 阅读 · 0 评论 -
Spark Shuffle操作
什么是Spark Shuffle?在Spark中,数据通常不会跨分区分布,以满足特定操作的需要。在计算期间,单个任务将对单个分区进行操作——因此,要组织单个reduceByKey 的计算任务要执行的所有数据,Spark需要执行一个all-to-all操作。它必须从所有分区中读取所有键的所有值,然后将所有分区的值放在一起计算每个键的最终结果——这称为shuffle。Spark中的某些操作会触发称...原创 2019-02-22 18:15:24 · 1666 阅读 · 0 评论 -
Spark SQL之引用(数据类型,NaN语义及算术运算)
Data Types(数据类型)Spark SQL和DataFrames支持以下数据类型:Numeric types(数字类型)ByteType: 表示1字节有符号整数。数字的范围是从-128到127。ShortType: 表示2字节有符号整数。数字的范围从-32768到32767。IntegerType: 表示4字节有符号整数。数字的范围是从-2147483648到2147483647...原创 2019-02-22 17:11:07 · 2196 阅读 · 0 评论 -
Spark SQL之分布式SQL引擎
Spark SQL还可以使用JDBC/ODBC或命令行接口充当分布式查询引擎。在这种模式下,终端用户或应用程序可以直接与Spark SQL交互来运行SQL查询,而不需要编写任何代码。Running the Thrift JDBC/ODBC server这里实现的Thrift JDBC/ODBC服务器对应于Hive 1.2.1中的HiveServer2。您可以使用Spark或Hive 1.2.1...原创 2019-02-22 17:12:58 · 794 阅读 · 0 评论 -
Spark SQL之性能优化
对于某些工作负载,可以通过在内存中缓存数据或打开一些实验性选项来提高性能。在内存中缓存数据Spark SQL可以通过调用Spark .catalog. cachetable(“tableName”)或dataFrame.cache()来使用内存中的柱状格式缓存表。然后Spark SQL将只扫描所需的列,并自动调优压缩,以最小化内存使用和GC压力。可以调用spark.catalog. unach...原创 2019-02-22 17:13:13 · 560 阅读 · 0 评论 -
Spark SQL之数据源(Data Source)与保存模式(Save Modes)
本篇大纲:(一).Generic Load/Save Functions(二).Parquet Files(三).ORC Files(四).JSON Files(五).Hive Tables(六).JDBC To Other Databases(七).Avro Files(八).TroubleshootingSparkSQL支持通过DataFrame接口对各种数据源进行操作。D...原创 2019-02-22 15:33:06 · 3413 阅读 · 0 评论 -
Spark SQL 的数据加载与保存(load , save)
Spark SQL主要是操作DataFrame,DataFrame本身提供了save和load的操作.Load:可以创建DataFrame;Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。SparkSQL的保存模式 * SaveMode.ErrorIfExist ----->default...原创 2018-11-17 23:29:09 · 2253 阅读 · 0 评论 -
Spark-core综合练习-IP匹配-将数据同步到MySQL数据库
第一步:创建数据库:create spark;第二步:创建数据表:备注:表中设计了一些冗余字段,如果单纯测试的话可以省去create table ips( id bigint auto_increment primary key, ip varchar(30) null, longitude varchar(30) not null, latitude varc...原创 2018-10-25 23:23:40 · 470 阅读 · 0 评论 -
Spark-core综合练习-IP匹配
ip.txt 部分数据:220.177.248.0|220.177.255.255|3702650880|3702652927|亚洲|中国|江西|南昌||电信|360100|China|CN|115.892151|28.676493220.178.0.0|220.178.56.113|3702652928|3702667377|亚洲|中国|安徽|合肥||电信|340100|China|CN|1...原创 2018-10-25 18:36:32 · 1229 阅读 · 0 评论