chengujun7940-CSDN博客

转载 spark工作的一些总结

请描述spark RDD原理与特征？ spark RDD原理：是一个容错的、并行的(弹性分布式)数据结构，可以控制数据存储至磁盘或者内存，能够获取数据的分区。其具体特征，如下： 1）创建：rdd创建有2种方式，一种为从稳定存储中读取创建；另一种从父RDD转换得到新的RDD。...

2018-06-19 14:08:00 415

转载 hadoop 工作上的一些知识点总结

HDFS部分如果让你来运营一个hdfs集群，你会重点关注哪些性能指标？请说出原因详情参考hadoop相关性能指标说明。这里列出一些hdfs的关键指标 (1)rpc相关 rpc.rpc.RpcQueueTimeAvgTime：rpc平均队列时长 rpc.rpc.RpcPr...

2018-06-18 17:33:00 484

转载 spark 整理的一些知识

Spark 知识点请描述spark RDD原理与特征？ RDD全称是resilient distributed dataset（具有弹性的分布式数据集）。一个RDD仅仅是一个分布式的元素集合。在Spark中，所有工作都表示为创建新的RDDs、转换现有的RDDs，或者调用R...

2018-06-18 17:28:00 248

转载 ElastricSearch IK分词

IK的一些操作： 1.查看集群健康状况GET /_cat/health?v&pretty2.查看my_index的mapping和setting的相关信息GET /my_index?pretty3.查看所有的indexGET /_cat/indices?v&pr...

2018-02-01 14:30:00 331

转载 Spark SQL中Join常用的几种实现

引言 Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于...

2018-01-31 17:29:00 263

转载 Spark SQL在100TB上的自适应执行实践

Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程...

2018-01-31 14:17:00 201

转载 SparkStructuredStreaming 的例子

在spark2.X版本后，新增了一个更高级的接口结构化流。 Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。您可以以静态数据表示批量计算的方式来表达 stream...

2018-01-25 16:19:00 326

转载 hdfs的高可用

hdfs的高可用架构图注意事项： ①启动的时候，会随机分配namenode的active和standy，然后在active这端zkfc会向zk注册一把active的锁 ②如果有问题，会删除active端这把锁，然后通知对方 ③高可用有三个组件 1、zk 2、zkfc 3、j...

2018-01-19 11:33:00 161

转载 SparkGraph 与SparkDataFrame 两种方式计算朋友的二度关系

例如现在有这些数据： 10010 95555 2016-11-11 15:55:5410010 95556 2016-11-11 15:55:5410010 95557 2016-11-11 15:55:5410086 95555 2016-11-...

2018-01-18 18:08:00 894

转载 spark参数调优

Spark 性能调优参数总结 1、Shuffle 相关 Shuffle 操作大概是对Spark 性能影响最大的步骤之一（因为可能涉及到排序，磁盘IO，网络IO 等众多CPU 或IO 密集的操作），这也是为什么在Spark 1.1 的代码中对整个Shuffle 框架代码进行了重构，将S...

2018-01-15 17:46:00 148

转载 Apache Spark 黑名单(Blacklist)机制介绍

来源：https://www.iteblog.com/archives/1907.html 在使用 ApacheSpark的时候，作业会以分布式的方式在不同的节点上运行；特别是当集群的规模很大时，集群的节点出现各种问题是很常见的，比如某个磁盘出现问题等。我们都知道 ApacheSpar...

2018-01-12 17:29:00 1806

转载 ElastricSearch打分简介

1、Elasticsearch的打分公式 Elasticsearch的默认打分公式是lucene的打分公式，主要分为两部分的计算，一部分是计算query部分的得分，另一部分是计算field部分的得分，下面给出ES官网给出的打分公式： score(q,d) = ...

2018-01-12 11:24:00 460

转载 spark DAG 切分 stage

1、DAG的整体图简要说明(个人理解)： ①当所有的RDD触发action的时候，会生成一个DAG ②stage是由DAG进行切分的，可以理解stage是一个taskset ③DAG是根据宽依赖进行切分stage的，stage是由Driver进行提交的 ④stage是一个一个提...

2018-01-10 15:47:00 495

转载 spark 广播变量之广播表(dataframe)

Broadcast variables（广播变量）允许程序员将一个read-only（只读的）变量缓存到每台机器上，而不是给任务传递一个副本。它们是如何来使用呢，例如，广播变量可以用一种高效的方式给每个节点传递一份比较大的input dataset（输入数据集）副本。在使用广播变量时，Sp...

2018-01-10 11:42:00 6669

转载 Spark on yarn 的两种模式

1、两种模式的区别 cluster模式：Driver程序在YARN中运行，应用的运行结果不能在客户端显示，所以最好运行那些将结果最终保存在外部存储介质（如HDFS、Redis、Mysql）而非stdout输出的应用程序，客户端的终端显示的仅是作为YARN的job的简单运行状况。 clien...

2018-01-10 11:20:00 316

转载 ElastricSearch的nested的应用

nested query (嵌套查询) 文档中可能包含嵌套类型的字段，这些字段用来索引一些数组对象，每个对象都可以作为一条独立的文档被查询出来(用嵌套查询) 场景：商店(shop) 活动(act) 目标是将活动(act)嵌套(冗余)到shop数据下面 1、index_mappin...

2018-01-10 10:36:00 156

转载 ElastricSearch的parent_child的应用

ElasticSearch这样的分布式系统中执行全SQL风格的连接查询代价昂贵，是不可行的。相应地，为了实现水平规模地扩展，ElasticSearch提供了两种形式的 join。 1、nested query (嵌套查询) 文档中可能包含嵌套类型的字段，这些字段用来索引一些数组对象...

2018-01-09 15:04:00 127

转载 spark GBT算法

梯度增强树（GBT）是使用决策树组合的流行回归方法相对于Random forest 来说GBT在实际应用中，效果更好直接上代码 package mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml....

2017-07-12 14:46:00 638

转载 es简单的脚本demo

脚本使用在es API中支持脚本的地方，语法遵循相同的模式： "script": { "lang": "...", （1） "inline" | "stored" | "file": "...", （2） "params": { ... } （3） } （1）写入脚...

2017-06-28 18:29:00 909

转载 spark随机森林算法的应用

应用场景：预测反欺诈用户 1、构建用户画像，用户画像由多种业务指标组成（例如用户申请后回访次数、ip城市与gps城市是否一致等等） 2、提取用户画像的业务指标--->将指标数值变成向量和矩阵 3、先验数据集：总数据条数：75568 正常用户条数：72723 确定欺诈用户条数：28...

2017-06-26 16:55:00 296

转载 hive instr 函数

instr(string str, string substr) 查找字符串str中子字符串substr出现的位置，如果查找失败将返回0，如果任一参数为Null将返回null，注意位置为从1开始的示例：如果在一个表里面找出某些字段包含一些特殊字符的数据如： * ( ) + | " :...

2017-06-23 17:16:00 23798

转载 es的mapping定义

我所用的是kibana的插件地址：http:localhost:9200/_plugin/kopf/#!/indexTemplates 显示画面： template 是你想定义的index name 示例我定义的一些mapping的模板代码： { "order": 0,...

2017-06-20 16:53:00 745

转载 HIVE 时间操作函数

链接：http://www.cnblogs.com/moodlxs/p/3370521.html 日期函数UNIX时间戳转日期函数:from_unixtime语法:from_unixtime(bigintunixtime[,stringformat]) 返回值:string...

2017-06-20 16:40:00 107

转载非空查找函数: COALESCE 应用

语法: COALESCE(T v1, T v2,…) 返回值: T 说明:返回参数中的第一个非空值；如果所有值都为NULL，那么返回NULL 示例： hive> select COALESCE(null,'100','50′) from lxw_dual; 100 实际应用...

2017-06-20 16:35:00 265

转载 spark MLPC 文本分类例子

1、公司名归类，简称cc码 2、算法:多层感知分类 3、总思路：文本分词-->Word2Vec--->矩阵---->MultilayerPerceptronClassifier ①中文分词使用是 IK Analyzer 例如:浙江工人日报社印刷厂--...

2017-06-19 17:46:00 222

转载 spark任务提交简要图(standalone)

spark 任务提交的过程转载于:https://my.oschina.net/u/3455048/blog/983631

2017-06-19 17:02:00 92

转载 ElastriSearch一些查询语句

Elastic search(构建于Lucene之上)在一个容易管理的包中提供了高性能的全文搜索功能，支持开箱即用地集群化扩展。可以通过标准的REST API或从特定于编程语言的客户端库与Elasticsearch进行交互。 1、首先了解一下es的主要构成： ①索引（index）个人可以理...

2017-06-19 15:12:00 186

转载 hive异常

hive 定时执行多任务的时候，往往会出现这种异常 Ended Job = job_1497614667068_1690 with exception 'java.io.IOException(Could not find status of job:job_1497614667068_16...

2017-06-19 13:58:00 425

chengujun7940的博客