自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

转载 spark工作的一些总结

请描述spark RDD原理与特征? spark RDD原理:是一个容错的、并行的(弹性分布式)数据结构,可以控制数据存储至磁盘或者内存,能够获取数据的分区。其具体特征,如下: 1)创建:rdd创建有2种方式,一种为从稳定存储中读取创建;另一种从父RDD转换得到新的RDD。...

2018-06-19 14:08:00 362

转载 hadoop 工作上的一些知识点总结

HDFS部分 如果让你来运营一个hdfs集群,你会重点关注哪些性能指标?请说出原因 详情参考hadoop相关性能指标说明。这里列出一些hdfs的关键指标 (1)rpc相关 rpc.rpc.RpcQueueTimeAvgTime:rpc平均队列时长 rpc.rpc.RpcPr...

2018-06-18 17:33:00 394

转载 spark 整理的一些知识

Spark 知识点 请描述spark RDD原理与特征? RDD全称是resilient distributed dataset(具有弹性的分布式数据集)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDDs,或者调用R...

2018-06-18 17:28:00 198

转载 ElastricSearch IK分词

IK的一些操作: 1.查看集群健康状况GET /_cat/health?v&pretty2.查看my_index的mapping和setting的相关信息GET /my_index?pretty3.查看所有的indexGET /_cat/indices?v&pr...

2018-02-01 14:30:00 291

转载 Spark SQL中Join常用的几种实现

引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于...

2018-01-31 17:29:00 226

转载 Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程...

2018-01-31 14:17:00 158

转载 SparkStructuredStreaming 的例子

在spark2.X版本后,新增了一个更高级的接口结构化流。 Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 stream...

2018-01-25 16:19:00 284

转载 hdfs的高可用

hdfs的高可用架构图 注意事项: ①启动的时候,会随机分配namenode的active和standy,然后在active这端zkfc会向zk注册一把active的锁 ②如果有问题,会删除active端这把锁,然后通知对方 ③高可用有三个组件 1、zk 2、zkfc 3、j...

2018-01-19 11:33:00 127

转载 SparkGraph 与SparkDataFrame 两种方式计算朋友的二度关系

例如现在有这些数据: 10010 95555 2016-11-11 15:55:5410010 95556 2016-11-11 15:55:5410010 95557 2016-11-11 15:55:5410086 95555 2016-11-...

2018-01-18 18:08:00 808

转载 spark参数调优

Spark 性能调优参数总结 1、Shuffle 相关 Shuffle 操作大概是对Spark 性能影响最大的步骤之一(因为可能涉及到排序,磁盘IO,网 络IO 等众多CPU 或IO 密集的操作),这也是为什么在Spark 1.1 的代码中对整个Shuffle 框架代码进行了重构,将S...

2018-01-15 17:46:00 110

转载 Apache Spark 黑名单(Blacklist)机制介绍

来源:https://www.iteblog.com/archives/1907.html 在使用 ApacheSpark的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比如某个磁盘出现问题等。我们都知道 ApacheSpar...

2018-01-12 17:29:00 1594

转载 ElastricSearch打分简介

1、Elasticsearch的打分公式 Elasticsearch的默认打分公式是lucene的打分公式,主要分为两部分的计算,一部分是计算query部分的得分,另一部分是计算field部分的得分,下面给出ES官网给出的打分公式: score(q,d) = ...

2018-01-12 11:24:00 392

转载 spark DAG 切分 stage

1、DAG的整体图 简要说明(个人理解): ①当所有的RDD触发action的时候,会生成一个DAG ②stage是由DAG进行切分的,可以理解stage是一个taskset ③DAG是根据宽依赖进行切分stage的,stage是由Driver进行提交的 ④stage是一个一个提...

2018-01-10 15:47:00 411

转载 spark 广播变量 之广播表(dataframe)

Broadcast variables(广播变量)允许程序员将一个read-only(只读的)变量缓存到每台机器上,而不是给任务传递一个副本。它们是如何来使用呢,例如,广播变量可以用一种高效的方式给每个节点传递一份比较大的input dataset(输入数据集)副本。在使用广播变量时,Sp...

2018-01-10 11:42:00 6468

转载 Spark on yarn 的两种模式

1、两种模式的区别 cluster模式:Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。 clien...

2018-01-10 11:20:00 248

转载 ElastricSearch的nested的应用

nested query (嵌套查询) 文档中可能包含嵌套类型的字段,这些字段用来索引一些数组对象,每个对象都可以作为一条独立的文档被查询出来(用嵌套查询) 场景:商店(shop) 活动(act) 目标是将活动(act)嵌套(冗余)到shop数据下面 1、index_mappin...

2018-01-10 10:36:00 109

转载 ElastricSearch的parent_child的应用

ElasticSearch这样的分布式系统中执行全SQL风格的连接查询代价昂贵,是不可行的。相应地,为了实现水平规模地扩展,ElasticSearch提供了两种形式的 join。 1、nested query (嵌套查询) 文档中可能包含嵌套类型的字段,这些字段用来索引一些数组对象...

2018-01-09 15:04:00 90

转载 spark GBT算法

梯度增强树(GBT)是使用决策树组合的流行回归方法 相对于Random forest 来说GBT在实际应用中,效果更好 直接上代码 package mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml....

2017-07-12 14:46:00 540

转载 es简单的脚本demo

脚本使用 在es API中支持脚本的地方,语法遵循相同的模式: "script": { "lang": "...", (1) "inline" | "stored" | "file": "...", (2) "params": { ... } (3) } (1)写入脚...

2017-06-28 18:29:00 300

转载 spark随机森林算法的应用

应用场景:预测反欺诈用户 1、构建用户画像,用户画像由多种业务指标组成(例如用户申请后回访次数、ip城市与gps城市是否一致等等) 2、提取用户画像的业务指标--->将指标数值变成向量和矩阵 3、先验数据集:总数据条数:75568 正常用户条数:72723 确定欺诈用户条数:28...

2017-06-26 16:55:00 234

转载 hive instr 函数

instr(string str, string substr) 查找字符串str中子字符串substr出现的位置,如果查找失败将返回0,如果任一参数为Null将返回null,注意位置为从1开始的 示例:如果在一个表里面找出某些字段包含一些特殊字符的数据 如: * ( ) + | " :...

2017-06-23 17:16:00 23573

转载 es的mapping定义

我所用的是kibana的插件 地址:http:localhost:9200/_plugin/kopf/#!/indexTemplates 显示画面: template 是你想定义的index name 示例我定义的一些mapping的模板 代码: { "order": 0,...

2017-06-20 16:53:00 704

转载 HIVE 时间操作函数

链接:http://www.cnblogs.com/moodlxs/p/3370521.html 日期函数UNIX时间戳转日期函数:from_unixtime语法:from_unixtime(bigintunixtime[,stringformat]) 返回值:string...

2017-06-20 16:40:00 93

转载 非空查找函数: COALESCE 应用

语法: COALESCE(T v1, T v2,…) 返回值: T 说明:返回参数中的第一个非空值;如果所有值都为NULL,那么返回NULL 示例: hive> select COALESCE(null,'100','50′) from lxw_dual; 100 实际应用...

2017-06-20 16:35:00 231

转载 spark MLPC 文本分类例子

1、公司名归类,简称cc码 2、算法:多层感知分类 3、总思路:文本分词-->Word2Vec--->矩阵---->MultilayerPerceptronClassifier ①中文分词使用是 IK Analyzer 例如:浙江工人日报社印刷厂--...

2017-06-19 17:46:00 181

转载 spark任务提交简要图(standalone)

spark 任务提交的过程 转载于:https://my.oschina.net/u/3455048/blog/983631

2017-06-19 17:02:00 75

转载 ElastriSearch一些查询语句

Elastic search(构建于Lucene之上)在一个容易管理的包中提供了高性能的全文搜索功能,支持开箱即用地集群化扩展。可以通过标准的REST API或从特定于编程语言的客户端库与Elasticsearch进行交互。 1、首先了解一下es的主要构成: ①索引(index)个人可以理...

2017-06-19 15:12:00 154

转载 hive异常

hive 定时执行多任务的时候,往往会出现这种异常 Ended Job = job_1497614667068_1690 with exception 'java.io.IOException(Could not find status of job:job_1497614667068_16...

2017-06-19 13:58:00 390

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除