- 博客(107)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
转载 Spark:宽依赖和窄依赖
站在父RDD角度 窄依赖:一对一站在父RDD角度 宽依赖:一对多宽依赖和窄依赖: 宽依赖:父RDD的分区被子RDD的多个分区使用 例如 groupByKey、reduceByKey、sortByKey等操作会产生宽依赖,会产生shuffle窄依赖:父RDD的每个分区都只被子RDD的一个分区使用 例如map、filter、union等操作会产生窄依赖 注意:...
2018-08-28 11:50:00
687
转载 Spark的Shuffle过程介绍
好文:https://blog.csdn.net/yuanxiaojun1990/article/details/50360261Spark的Shuffle过程介绍Shuffle WriterSpark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Sp...
2018-08-24 18:47:31
414
转载 JAVA注解
自Java5.0版本引入注解之后,它就成为了Java平台中非常重要的一部分。开发过程中,我们也时常在应用代码中会看到诸如@Override,@Deprecated这样的注解。这篇文章中,我将向大家讲述到底什么是注解,为什么要引入注解,注解是如何工作的,如何编写自定义的注解(通过例子),什么情况下可以使用注解以及最新注解和ADF(应用开发框架)。这会花点儿时间,所以为自己准备一杯咖啡,让我们来进入...
2018-08-24 16:53:10
173
转载 Hbase 预分区代码
转载:https://blog.csdn.net/javajxz008/article/details/51913471背景:HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断 增加,此region已经不能承受不断增长的数据量,会进行split,分成2...
2018-08-22 14:44:51
391
转载 第一次有人把“分布式事务”讲的这么简单明了
https://mp.weixin.qq.com/s?__biz=MjM5ODI5Njc2MA==&mid=2655818255&idx=1&sn=8f41a01c6d512baa6207bd94d44a9478&chksm=bd74dfd88a0356ce023f18abb1166138bed190f7ee305d7e3375a8374636dd07689d9a5...
2018-08-21 18:14:52
1311
原创 Spark:找到IP范围重复的(交集,包含)IP范围
目标:找到IP范围重复的IP范围数据:id,ip_start,ip_end,longitude,latitude,province,city,unit,operator,type,name,network_area,number,raw_data***--7845-46f2-***--cce40f54d449,1******3,1******0,,,兵团,第六师,*公安局,局域网计算机...
2018-08-21 17:51:14
606
转载 Spark on Yarn 解惑
一:Hadoop Yarn解析 1,Yarn是Hadoop推出整个分布式(大数据)集群的资源管理器,负责资源的管理和分配,基于Yarn我们可以在同一个大数据集群上同时运行多个计算框架,例如Spark、MapReduce、Storm等; 2,Yarn基本工作流程如下图所示: 注意:Container要向NodeManager汇报资源...
2018-08-21 11:29:24
257
转载 项目中git地址修改为新地址
方法有很多,这里简单介绍几种:以下均以项目git_test为例: 老地址:http://192.168.1.12:9797/john/git_test.git 新地址:http://192.168.100.235:9797/john/git_test.git 远程仓库名称: origin方法一 通过命令直接修改远程地址进入git_test根目录git remote 查看...
2018-08-20 11:10:03
915
转载 Flink在唯品会的实践
本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容如下: 唯品会实时平台现状 Flink在唯品会的实践 Flin...
2018-08-16 15:51:06
520
转载 Docker常用命令
Docker 常用命令操作容器启动容器启动容器并启动bash(交互方式):$docker run -i -t <image_name/continar_id> /bin/bash启动容器以后台方式运行(更通用的方式):$docker run -d -it image_nameps:这里的 image_name 包含了tag:hello.demo.kdemo...
2018-08-14 17:29:12
249
原创 spark案例:IP范围重复去重问题解决
两个IP范围:10.100.1.1-10.100.1.25410.100.1.1-10.100.2.62转换成 10.100.1.1-10.100.1.254或者两个IP范围:10.100.1.100-10.100.1.15010.100.1.120-10.100.1.250转换成 10.100.1.100-10.100.1.250IP文件部分:10.1.0.0...
2018-08-10 17:19:51
619
转载 Java替换掉字符串中的特殊字符
@Test public void updateStateByEmrID() { String str = "{你好"; String regEx = "[`~!@#$%^&*()\\-+={}':;,\\[\\].<>/?¥%…()_+|【】‘;:”“’。,、?\\s]"; Pattern p = Patte...
2018-08-08 11:02:07
8028
原创 Maven报错:执行命令出现的 duplicated in the reactor 问题
执行maven命令出现的duplicated in the reactor问题如题:原因是父pom.xml指定了多个作为子module,某一个子module 的pom又指定了父 或者 同级 作为自己的子module,导致出现冲突,仔细检查 每个pom的 parent 和 modules 删除掉多余的就可以了。依赖只需要父pom或者子pom来定义一次就可以了。不要重复定义。个人习惯从父pom...
2018-07-31 17:51:44
7087
原创 Maven报错:Non-resolvable parent POM for XXX
这个错误的原因是因为子pom文件的parent relativePath (相对路径)写错<parent> <groupId>XXX</groupId> <artifactId>XXX</artifactId> <version>XXX</version> <relativePa
2018-07-31 17:42:43
16175
9
原创 Git提交代码报错The remote end hung up unexpectedly The remote end hung up unexpectedly RPC failed;
Failed with error: The remote end hung up unexpectedly The remote end hung up unexpectedly RPC failed; HTTP 403 curl 22 The requested URL returned error: 403 Forbidden如题一个小失误,原因是因为未参与协作仓库或者没有写的权限虽...
2018-07-31 17:20:02
1496
转载 Maven介绍,包括作用、核心概念、用法、常用命令、扩展及配置
由浅入深,主要介绍maven的用途、核心概念(Pom、Repositories、Artifact、Build Lifecycle、Goal)、用法(Archetype意义及创建各种项目)、maven常用参数和命令以及简单故障排除、maven扩展(eclipse、cobertura、findbugs、插件开发)、maven配置。较长,可根据个人需要有选择性的查看,比如先看用法再回过头来看核心概念...
2018-07-31 16:06:14
194
转载 Git 分支管理
Git 分支管理http://www.runoob.com/git/git-branch.html几乎每一种版本控制系统都以某种形式支持分支。使用分支意味着你可以从开发主线上分离开来,然后在不影响主线的同时继续工作。有人把 Git 的分支模型称为"必杀技特性",而正是因为它,将 Git 从版本控制系统家族里区分出来。创建分支命令:git branch (branchname)...
2018-07-24 17:07:58
187
转载 idea git 忽略文件不提交
在intellij中忽略提交文件,分两种情况,文件没有纳入版本管理第一种,文件还没有纳入版本管理,这种通过 svn的ignore配置 version control—-local changes—-configure ignored files, 忽略文件分几大类,忽略某个文件夹、忽略某类文件(正则)、忽略某个文件 文件已经纳入版本管理如果文件已经纳入版本了,应该采用第二种...
2018-07-24 16:56:49
2018
原创 WebService初体验
server:package dpnice;/** * @author DPn!ce date 2018 07 23 下午 5:53 */public interface TestInterface { /** * * @param uName d * @return uName */ public String test...
2018-07-23 19:28:20
276
转载 HBase二级索引实现方案
关于使用hbase进行多维度条件实时查询的方案调研。1.MapReduce方案 优点:并发批量构建Index 缺点:不能实时构建Index 2.ITHBASE方案 缺点:需要重构hbase,几年没有更新。 3.IHBASE方案 缺点:需要重构hbase。 4.Coprocessor方案 华为的HBase二级索引采用此方案(hindex 代码开源)。 ...
2018-07-20 15:02:00
2603
原创 centos7脚本自启动及定时运行
组件自启动方法一:1. 自己新建一个脚本,如DoctorAI-start_tomcat_es.sh经过后面的几个步骤后,这个脚本在开机的时候会执行,在这个脚本里面可以写你开机的时候想执行的命令,如启动tomcat,es等服务2. 在脚本中输入启动服务的命令,如(开机启动tomcat):#!/bin/sh#chkconfig: 2345 80 90#description:...
2018-07-20 14:15:53
1685
原创 Docker安装MySQL
yum -y install dockermv /var/lib/docker /home/dockerln -s /home/docker/ /var/lib/dockerservice docker startsystemctl enable docker加速器(docker login daocloud.io)curl -sSL https://get.daocloud.io...
2018-07-20 11:29:15
269
转载 docker 启动报错:Error starting daemon: SELinux is not supported with the overlay2 graph ...false)
环境:centos7命令:systemctl start docker systemctl status docker -l报错:Error starting daemon: SELinux is not supported with the overlay2 graph driver on this kernel. Either boot into a newer ...
2018-07-20 11:24:47
508
原创 Java 8实现缓存服务(维护两种淘汰策略(FIFO LRU)的并发高速缓存)
场景:请使用Java 8实现缓存服务。该服务可以提供中等级别的缓存同时访问。要实施的访问操作包括: 1. get(key) - 此操作将获取列表中键的值。如果密钥不存在,则返回-1。 2. set(key,value) - 如果密钥不存在,此操作将在列表中插入新的键/值,否则不执行任何操作。 3.缓存的大小可通过属性文件进行配...
2018-07-16 18:32:13
939
原创 Prometheus监控MySQL,Grafana展示
需要的组件:Prometheus ,node_exporter(也可以不要),mysql_exporter Grafana,Grafana的Prometheus-MySQL的仪表盘总结:掌握一些Prometheus语法,自己能写出想要的监控指标(有些仪表盘不兼容就需要自己改Prometheus的配置以及仪表盘的语法)改完之后的几个指标展示:...
2018-07-09 10:31:48
882
原创 嵌套聚合求百分比——es记一次关于 bucket_script 根据需求不断改进的DSL及jestAPI
需求:求每个科室下不同病历级别的百分比。 思路:按每个科室分组,再按级别分组,再求占比。 开动。第一次尝试:POST /medicalrecord/my_type/_search?size=0{ "size": 0, "aggs": { "department_group": { "terms": { "field": "departmen.
2018-07-06 17:56:12
6564
4
转载 一些小团队的自动化运维实践经验
行业内各巨头的自动化运维架构都各种功能各种酷炫,如下图,让人可望不可及。现在最终的样子大家都知道了,但问题是如何根据自己团队当前的情况一步步向那个目标演进?笔者所在团队,三个半开发,要维护几十台云机器,部署了十来个应用,这些应用90%都是遗留系统。应用系统的编译打包基本在程序员自己的电脑上。分支管理也清一色的 dev 分支开发,测试通过后,再合并到 master 分支。生产环境的应用配置要登录上具...
2018-07-02 10:38:14
854
1
原创 centos7用yum只下载不安装软件及其依赖,然后离线安装到其他机器上
文章讲述了如何用yum在线下载好rpm包,然后在其他机器上离线安装一个录屏工具vcl找一台全新的centos7 可以是虚拟机。--downloadonly#只下载--downloaddir=temp#rpm的下载保存地址用命令:yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpmyum...
2018-06-29 10:12:56
5765
转载 IntelliJ IDEA下使用git
1、git简介git是目前流行的分布式版本管理系统。它拥有两套版本库,本地库和远程库,在不进行合并和删除之类的操作时这两套版本库互不影响。也因此其近乎所有的操作都是本地执行,所以在断网的情况下任然可以提交代码,切换分支。git又使用了SHA-1哈希算法确保了在文件传输时变得不完整、磁盘损坏导致数据丢失时能立即察觉到。git的基本工作流程:git clone:将远程的Master分支代码克隆到本地仓...
2018-06-27 11:51:05
194
原创 用Grafana创建监控指标仪表盘监控elastic search
监控elasticsearch可以用官方的X-Pack的Monitoring(监控组件)甚至用X-Pack的Machine Learning组件来创建需要的监控指标。本文用的是Grafana+python脚本实现监控es的功能。首先安装Grafana(涵盖了很多不同操作系统的安装方法): http://docs.grafana.org/installation/rpm/ 然后在仪表盘里找到e...
2018-06-26 17:46:07
5863
原创 特征集:创建一个包含极少特征但效果与更复杂的特征集一样出色的集合
Github:https://github.com/DPnice/TensorFlowTest/blob/master/feature_sets.ipynb特征集学习目标:创建一个包含极少特征但效果与更复杂的特征集一样出色的集合到目前为止,我们已经将所有特征添加到了模型中。具有较少特征的模型会使用较少的资源,并且更易于维护。我们来看看能否构建这样一种模型:包含极少的住房特征,但效果与使用数据集中所...
2018-06-22 16:34:57
1899
原创 使用多个特征来进一步提高模型的有效性,使用测试数据集检查模型是否过拟合验证数据
Github: https://github.com/DPnice/TensorFlowTest/blob/master/validation.ipynb验证学习目标:使用多个特征而非单个特征来进一步提高模型的有效性调试模型输入数据中的问题使用测试数据集检查模型是否过拟合验证数据与在之前的练习中一样,我们将使用加利福尼亚州住房数据集,尝试根据 1990 年的人口普查数据在城市街区级别预测 medi...
2018-06-21 18:36:36
4843
原创 使用 TensorFlow 的基本步骤
GitHub:https://github.com/DPnice/TensorFlowTest使用 TensorFlow 的基本步骤学习目标:学习基本的 TensorFlow 概念在 TensorFlow 中使用 LinearRegressor 类并基于单个输入特征预测各城市街区的房屋价值中位数使用均方根误差 (RMSE) 评估模型预测的准确率通过调整模型的超参数提高模型准确率数据基于加利福尼亚州...
2018-06-20 16:09:31
769
转载 Livy:基于Apache Spark的REST服务
Apache Spark提供的两种基于命令行的处理交互方式虽然足够灵活,但在企业应用中面临诸如部署、安全等问题。为此本文引入Livy这样一个基于Apache Spark的REST服务,它不仅以REST的方式代替了Spark传统的处理交互方式,同时也提供企业应用中不可忽视的多用户,安全,以及容错的支持。背景Apache Spark作为当前最为流行的开源大数据计算框架,广泛应用于数据处理和分析应用,它...
2018-06-20 16:05:46
420
原创 合成特征和离群值
In [0]:# Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the License.# You may obtain a copy of the License at## https://www.ap...
2018-06-20 16:02:23
779
转载 maven打包时忽略测试代码
当我们想用maven打包的时候不想运行测试代码(junit),我们可以有一下方法一、打包时带上以下命令mvn install -DskipTests 或 mvn install -Dmaven.test.skip=true二、使用maven提供的插件<plugin> <groupId>org.apache.maven.plugins</groupId> &l...
2018-06-11 10:30:26
687
原创 简单在ctenos7上安装mysql-8.0.11
mkdir -p /home/mysql/mysql-8.0.11-linux-glibc2.12-x86_64/run/mariadbmkdir -p /home/mysql/mysql-8.0.11-linux-glibc2.12-x86_64/log/mariadbtouch /home/mysql/mysql-8.0.11-linux-glibc2.12-x86_64/log/mariad...
2018-06-07 14:53:41
637
转载 修改CentOS默认yum源为国内yum镜像源
有时候CentOS默认的yum源不一定是国内镜像,导致yum在线安装及更新速度不是很理想。这时候需要将yum源设置为国内镜像站点。国内主要开源的开源镜像站点应该是网易和阿里云了。修改CentOS默认yum源为mirrors.163.com1、首先备份系统自带yum源配置文件/etc/yum.repos.d/CentOS-Base.repo1[root@localhost ~]# mv /etc/y...
2018-06-06 11:43:59
5416
原创 ES 5.5.3 esrally压测过程及对比
前言:所有操作在mac下操作(在linux上操作相同命令有差异)======安装homebrew=======ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" ==> This script will install:/usr/local/bin/brew/usr...
2018-05-21 17:01:40
1485
es 优化指南ppt
2018-04-02
14亿条有格式的数据怎么实现复杂条件下秒级查询
2017-11-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅