spark
文章平均质量分 57
阿龙学堂
砖搬的多了,就自然知道怎样省力了
展开
-
SqlBoy:打折日期交叉问题
SqlBoy:打折日期交叉问题原创 2022-08-02 17:00:49 · 842 阅读 · 1 评论 -
SqlBoy:间隔连续问题
SqlBoy:间隔连续问题原创 2022-08-02 16:13:29 · 1523 阅读 · 0 评论 -
SqlBoy:分组问题
SqlBoy:分组问题原创 2022-08-02 16:10:42 · 378 阅读 · 0 评论 -
SqlBoy:连续问题
SqlBoy:连续问题原创 2022-08-02 16:07:38 · 197 阅读 · 0 评论 -
SqlBoy:异或、交换奇偶
SqlBoy:异或、交换奇偶原创 2022-08-02 16:03:42 · 215 阅读 · 0 评论 -
阿龙学堂-Spark 数据倾斜如何处理
Spark 数据倾斜如何处理原创 2022-06-09 14:06:11 · 294 阅读 · 0 评论 -
sparkmllib算法之特征转换-第一篇(StopWordsRemover)
0、停止词介绍停止词是应该从输入中排除的词,通常是因为词经常出现而且没有那么多含义。StopWordsRemover 将字符串序列(例如,Tokenizer 的输出)作为输入,并从输入序列中删除所有停用词。停用词列表由 stopWords 参数指定。某些语言的默认停用词可通过调用访问 StopWordsRemover.loadDefaultStopWords(language),其中可用选...原创 2020-03-16 18:05:14 · 364 阅读 · 0 评论 -
sparkmllib算法之特征转换-第一篇(分词器)
0、分词器分词是将文本(例如句子)分解为单个术语(通常是单词)的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式(正则表达式)匹配的更高级标记化。默认情况下,参数“pattern”(正则表达式,默认值:) "\\s+"用作分隔符以分割输入文本。或者,用户可以将参数“gap”设置为 false,指示正则表...原创 2020-03-16 17:55:32 · 419 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(CountVectorizer)
0、CountVectorizer 使用及原理CountVectorizer 并 CountVectorizerModel 旨在帮助将一组文本文档转换为标签计数的向量。当 apriori 字典不可用时,CountVectorizer 可以用作 Estimator 提取词汇表,并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示,然后可以将其传递给其他算法,如 ...原创 2020-03-16 17:38:45 · 722 阅读 · 0 评论 -
sparkmllib算法之操作-第二篇
0、sparkmllib基础统计相关性 假设检验 总结器1、相关性计算两个系列数据之间的相关性是“统计”中的常见操作。在spark.ml我们提供了很多系列中的灵活性,计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation使用指定的方法为输入的矢量数据集计算相关矩阵。输出将是一个DataFrame,其中包含向量列的相关矩阵。im...原创 2020-03-16 17:19:50 · 385 阅读 · 0 评论 -
sparkmllib算法之操作-第一篇
0、简介sparkMLlib是spark中的一个算法包,主要是进行一些机器学习相关的操作及计算,主要包括以下几个方面: 序号 特征 特征描述 1 ML算法 常见的学习算法,例如分类,回归,聚类和协作过滤 2 特征化 特征提取,变换,降维和选择 3 管道 用于构建,评估和调整ML管道的工具 4 持久性 保存和加载...原创 2020-03-16 16:51:08 · 350 阅读 · 0 评论 -
阿龙学堂-SparkGraphx基本操作篇-第四篇
0、需求:图的基本操作实现1、加载依赖包略2、代码基本操作 def main(args: Array[String]): Unit = { //准备环境 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[4]") val sc = new SparkCon...原创 2020-03-16 16:22:24 · 223 阅读 · 0 评论 -
SparkGraphx基本操作篇-第三篇
0、需求sparkGraphx实现PageRank1、添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...原创 2020-03-16 16:25:36 · 408 阅读 · 0 评论 -
阿龙学堂-SparkGraphx基本操作篇-第二篇
0、需求加载外部文件进行图计算,数据存在于该外部文件当中。1、加载依赖包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta...原创 2020-03-16 16:11:54 · 252 阅读 · 0 评论 -
阿龙学堂-SparkGraphx基本操作篇-第一篇
0、需求实现我们要构建一个由 GraphX 项目上的各种协作者组成的属性图。vertex 属性可能包含用户名和职业。我们可以使用描述协作者之间关系的字符串来注释边:1、加载已有测试数据1.1、加载依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...原创 2020-03-16 15:59:28 · 381 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(Word2Vec)
1、定义如果用一句比较简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度,其中的tricks包括Hierarchical softmax,negative sampling, Huffman Tree等。2、原理word2vec可以分为两部分:模型与通过模型获得的词向...原创 2020-01-14 20:20:03 · 638 阅读 · 0 评论 -
sparkmllib算法之操作-第三篇(TF-IDF)
1、定义在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...原创 2020-01-14 20:08:38 · 571 阅读 · 0 评论 -
阿龙学堂-启动spark任务的两种方式
1、简介spark在现在的数据分析,包括离线分析,微批次处理过程中有很多的运用,但是在启动任务的过程中,大部分是将spark作为一个单独的项目进行处理,但是有时候,在一些和web等项目整合的时候,就不需要单独的进行处理,因此就有了一下两种启动spark的任务方式:1.1、使用方式1创建传统的maven项目,将spark进行单独的处理,首先添加pom坐标<?xml versio...原创 2019-12-03 12:53:34 · 430 阅读 · 0 评论 -
spark启动过程及通信-消息的形式
1、介绍总体概括应该这样:首先启动Driver 程序,创建SparkContext程序,然后和ClusterManager通信,ClusterManager根据程序的逻辑,在相应的Worker上启动Executor,最后 Driver 和Executor通信,把任务分发到Executor进行运行。中间还有很多细节,比如任务的调度,DAGScheduler,Shuffle环节等等。后面会做相应的...原创 2019-11-22 16:09:43 · 179 阅读 · 0 评论 -
spark on yarn【在yarn上提交spark 程序配置及实现方式】
spark on yarn原创 2019-01-22 00:10:14 · 4066 阅读 · 0 评论 -
总结杂谈
架构设计 图组件选择(调研+压测试)高可靠压缩格式文件格式每秒,分钟数据量 未入集群 离线 实时那块高可靠没有做好?flume memory |spark yarn开发内容:hivespark存储监控java1.GC jvm垃圾选择器参数串行收集器、并行收集器、并发收集器。GC有两种类型:Scavenge GC和Full GC。以使用-XX:+UseSerialGC打开。-XX:Paralle...原创 2018-04-09 10:51:07 · 359 阅读 · 0 评论 -
DataFrame与RDD的区别
RDD可看作是分布式的对象的集合,Spark并不知道对象的详细模式信息,DataFrame可看作是分布式的Row对象的集合,其提供了由列组成的详细模式信息,使得Spark SQL可以进行某些形式的执行优化.上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供原创 2018-01-18 20:34:06 · 3654 阅读 · 0 评论 -
安装zookeeper集群注意事项
安装zookeeper集群注意事项:1、准备工作 1.1、配置好 hostname 1.2、配置好ip地址 1.3、配置好 /etc/hosts域名映射 1.4、关闭防火墙 chkconfig iptables off (永久关闭) 1.5、安装jdk(配置 好 注意:source /etc/profile) 1.6、配置免密登陆 ssh-key原创 2018-01-15 20:36:56 · 1774 阅读 · 0 评论