自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿生

天心有晴

原创 scrapy 安装
原力计划

scrapy 安装 文章目录scrapy 安装安装python管理模块anaconda下载位置环境变量使用conda命令安装scrapy安装命令一些常见的错误 安装python管理模块anaconda 下载位置 下载位置可以去清华镜像,不要问为什么?除非你可以忍受特别低的下载速度 点击进入下载页面...

2020-04-21 11:24:36 74 0

原创 DataNode数据块丢失问题查找

HDFS数据块丢失问题 文章目录HDFS数据块丢失问题问题发现问题定位找到原因新的问题的产生向前一小步查看影响 问题发现 正在跑Spark任务的时候,代码提交上去了,代码提交之后肯定是要通过yarn上传到HDFS上面,然后各个节点就可以看到jar包了。 但是这个时候突然间报错NameNode进入了...

2019-12-06 11:54:23 188 0

原创 记一次HBase的STUCK Region-In-Transition问题

HBase STUCK Region-In-Transition问题 产生原因 HBase2.x的Procedure是记录了HBase的各种操作,比如创建表、删除表、禁用表。当他出现不一致的时候可能就会导致STUCK Region-In-Transition。 解决方案 HBase2.x已经有了相...

2019-10-18 17:06:32 628 0

原创 Centos7安装CDH6.3.0

Centos7.6安装CDH6.3 文章目录Centos7.6安装CDH6.31、下载安装包2、集群环境准备3、安装mysql4、配置yum parcel源一般为/etc/my.cnf 1、下载安装包 Cloudera Manager安装包 下载 cm6.3.0-redhat7.tar.gz CD...

2019-10-15 14:49:53 2511 2

原创 HBase数据迁移方案

HBase2.1.0数据迁移方案 文章目录HBase2.1.0数据迁移方案步骤一、迁移HFile数据步骤二、迁移表的region步骤三、bulkload数据 业务要求:将数据从旧的集群HBase1.2迁移到HBase2.1.0中去。每个表的数据量级10TB左右 值得注意:HBase升级到Hbase...

2019-09-25 16:04:22 529 5

原创 Spark 加载PMML格式模型在线预测

Spark 加载PMML格式模型在线预测 Spark 加载PMML格式的模型文件 目前spark自身是不支持这个pmml类型模型的,想要使用它可以采用github上面的插件jpmml-evaluator-spark github地址 但是它上面的东西描述的优点抽象,使用的时候可能遇到很多的坑,比如...

2019-09-06 11:49:39 685 1

原创 升级CDH集群的JDK

升级CDH集群的JDK 更改所有节点的java命令 [root@a01 ~]# whereis java java: /usr/bin/java /etc/java /usr/lib/java /usr/share/java /usr/share/man/man1/java.1.gz [root@...

2019-09-05 17:46:24 233 0

原创 HBase启动报错Caused by: java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder

HBase报错问题 HBase运行好好的,突然之间重启之后再也起不来了,一直报错。 Caused by: java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder 类似的就是这个htrace包里面的内容。 去安装的li...

2019-08-27 09:46:39 167 0

原创 Neo4j导入数据超过限制怎么办

Neo4j导入数据超出限制 今天neo4j导入数据的时候报错了 original error: Maximum id limit for PROPERTY has been reached. Generated id 68719476796 is out of permitted range [0...

2019-08-26 11:35:56 254 0

原创 从两个HDFS集群之间拷贝数据命令

从两个HDFS集群之间拷贝数据命令 1 distcp命令 命令如下: hadoop distcp hdfs://a01:8020/lime/ hdfs://nameservice/ 该命令在需要数据的集群上面进行执行,执行过程需要跑MR程序。 有的时候我在其他节点上需要数据,同时我需要的是把数...

2019-08-22 14:46:27 1559 0

原创 Neo4j性能测试

Neo4j性能测试 文章目录Neo4j性能测试测试环境准备CPU内存磁盘测试数据测试方法100万关系数据测试无索引无预热无索引有预热创建索引查询索引是否生效有索引无预热1千万数据无索引无预热无索引有预热有索引无预热有索引有预热数据大小一亿条数据数据大小无索引无预热无索引有预热有索引无预热有索引有预...

2019-07-19 18:09:27 852 0

原创 SparkGraphX和Neo4j对比

SparkGraphX和Neo4j对比 Neo4j 优点 支持交互式查询,查询效率很高。能够迅速从整网中找出符合特定模式的子网,供随后分析之用,适用于OLTP(Online Transaction Processing)场景 支持算法: 社区发现算法, 中心算法, 路径查找算法, 相似度算法,...

2019-07-19 15:33:43 867 0

原创 身份证校验算法

package util; import java.text.SimpleDateFormat; import java.util.Date; /** * Created by LiuWenSheng on 2018/1/11. */ public class CheckIdCard { ...

2019-07-02 12:42:40 95 0

原创 SparkRPC源码分析之OneWayMessage消息

SparkRPC源码分析之OneWayMessage消息 文章目录SparkRPC源码分析之OneWayMessage消息OneWayMessage OneWayMessage 首先看一下OneWayMessage的定义 public final class OneWayMessage exten...

2019-07-01 21:59:18 388 0

原创 SparkRPC源码分析之RpcRequest、RpcResponse和RpcFailure消息

SparkRPC源码分析之RpcRequest、RpcResponse和RpcFailure消息 文章目录SparkRPC源码分析之RpcRequest、RpcResponse和RpcFailure消息RpcRequestRPCResponse 和RpcFailure 消息 RpcRequest ...

2019-07-01 20:58:30 320 0

原创 neo4j导入csv数据

neo4j 导入数据 文章目录neo4j 导入数据1、 数据准备2、关闭服务3、数据导入4、开启服务5、一些遇到的问题倒错了想要删库怎么办导入出现错误怎么办错误一及解决办法错误二及解决办法错误三及解决办法 1、 数据准备 将想要导入的数据做成csv文件的格式,需要准备两种csv文件、一种为节点cs...

2019-06-26 10:56:48 2303 1

原创 neo4j因果集群搭建

neo4j因果集群搭建 文章目录neo4j因果集群搭建neo4j集群模式HA集群因果集群添加新的core服务器添加新的只读副本节点官网的错误 neo4j集群模式 HA集群 因果集群 本文的介绍来自于neo4j官网操作手册。 HA集群 HA集群已经被启用,将会在4.x被删除,这是官网的原话 因...

2019-06-18 15:41:29 762 4

原创 SparkRPC源码分析之ChunkFetchRequest、ChunkFetchSuccess和ChunkFetchFailure消息

StreamManager 文章目录StreamManager作用方法ChunkFetchRequest消息ChunkFetchSuccess和ChunkFetchFailure消息 作用 ​ StreamManager用来从一个流中提取单个的块。这会在TransportRequestHande...

2019-06-14 08:58:00 383 0

原创 图数据库JanusGraph与neo4j对比

图数据库 文章目录什么是图?什么是图数据库?何时需要使用图数据库图数据库常用领域怎么确定需要使用图数据库图数据库的种类Neo4J和JanusGraph比较JanusGraph大型用户JanusGraph功能【官网介绍】Neo4j的企业与社区版本对比 什么是图? ​ 图由两个元素组成:节点、关系 ...

2019-06-10 17:34:18 5095 1

原创 SparkRPC源码分析之RPC管道与消息类型

SparkRPC源码分析之RPC管道与消息类型 我们前面看过了netty基础知识扫盲,那我们应该明白,ChannelHandler这个组件内为channel的各种事件提供了处理逻辑,也就是主要业务逻辑写在该组建内。Spark的RPC也不会例外,因此我们看一下Spark的Handeler怎么调用的。...

2019-05-17 14:43:26 154 0

原创 SparkRPC源码分析之Netty基础知识扫盲

SparkRPC源码分析之Netty基础知识扫盲 在上面三篇文章中,我们介绍了Spark如何创建一个客户端和如何创建一个服务端。那么这些东西是什么呢?这就需要了解netty,而我本人是对netty不了解的。因此简单地看了一下netty需要的东西,写了以下简单的netty入门级程序。仅供参考 服务端...

2019-05-10 16:53:38 93 0

原创 SparkRPC源码分析之TransportServer

SparkRPC源码分析之TransportServer 在上一篇博客中写到了Transprotclient的初始化,也就是那个很重要的currentMap里面数据的初始化,本次分析服务端初始化过程。 先看构造方法的源代码 //创建一个TransportServer,绑定到给定主机和给定端口,(如...

2019-05-09 18:17:56 58 0

原创 SparkRPC源码分析之TransportClientFactory

TransPortClientFactory TransportClientFactory是创建TransportClient的工厂方法。该类是使用Java语言写的不是scala,主要方法为createClient方法. 这里的是简单工厂模式,一般简单工厂模式使用的是if-else逻辑进行判断 先...

2019-05-08 19:47:18 94 0

原创 SparkRPC源码分析之ConfigProvider

Spark配置信息 Spark的配置信息读取一般都会通过ConfigProvider类来完成,该类是一个抽象类,它的一系列子类实现了从各种渠道中读取配置信息到内存中[Map]这里是一个javaMap不是ScalaMap 代码如下所示 package org.apache.spark.interna...

2019-05-07 18:55:29 86 0

原创 hadoop3.x端口改动

近日学习hadoop3.x,一切安装完成,格式化namenode 然后发现怎么也打不开50070界面 如图所示 刚开始以为是配置错误了,检查多次配置文件和防火墙发现都没问题,然后又测试把文件上传到hdfs试验,发现也可以。于是我明白可能是hadoop3.x端口进行更改了。那么问题来了。新的端口是...

2019-03-24 10:58:02 1134 0

原创 如何用scala写出java8的函数BiConsumer等匿名函数

使用scala写出java的BiConsumer 最近做一个项目需要使用scala调用java的API,但是java的api上面的输入参数为BiComsumer接口,这种接口在java中写很简单,比如这样 (m,n)-> System.out.println(m+n) 但是...

2019-02-14 15:25:03 569 1

原创 Spark统计类StatCounter类

statCounter org.apache.spark.util包中一个用于统计的类,这个类可以对一组数字进行统计追踪,可以统计他的计数,最大值,最小值,平均值,求和,以及可以合并两个追踪的结果merge。 example:统计一下不为0的数字和为0的数值的代码如下 package demo ...

2019-01-29 17:37:33 428 0

原创 ElasticSearch的内前对象过滤聚合

Elasticserach内嵌对象过滤聚合 比如某一个内嵌对象的字段形式为 { type:汽车车型 style:汽车车系 } 此时选出了具有某种汽车车型比如 五菱的人,数据在此字段中还包含 奥迪汽车。 { "size": 0, "query": {...

2018-11-08 16:48:33 523 0

原创 Elasticsearch查询的时候setSize不起作用,而且匹配的数据还不正确。

最近使用ES做项目,使用的过程中发现ES返回的结果是错误的,这个问题肯定不是ES本身的问题,他作为一个成熟的框架是不可能犯这些小错误的,于是我就想问题是出在了我自己身上,但是代码中根本不报错。 后来发现原因出在了setSource()上面 它和setQuery的顺序决定了结果返回的正确性,我猜想...

2018-08-23 19:14:56 1291 0

原创 illegal cyclic reference involving object InterfaceAudience

最近开发Spark应用程序,用到了scala反射,但是却一直报错循环引用 InterfaceAudience,感觉很奇怪,后来排查错因才发现,原来FileSystem类不可以作为反射的方法的参数,一旦作为参数就会报错循环引用。具体测试代码如下所示。 package myreflect impo...

2018-08-14 15:28:18 1660 0

原创 Scala2.11反射

scala的反射 scala的反射分为 运行时反射和编译时反射。编译时反射在scala语言中使用宏来替代,它是开发程序转化器和生成器的神兵利器,而运行时反射通常用来作为调整语言语义和组件之间的绑定。 具体的情况请参考官方链接 - 点击进入这是官网中的例子和对scala反射的一些解释。顺便提醒一...

2018-08-14 15:10:30 1194 0

原创 Spark中的aggregate算子

Spark的aggregate算子 aggragete算子作为spark的算子之一,虽然没有map,reduce算子使用的多但是也是一个不容忽略的算子,但是关于这个算子的用法很多解释都含糊不清 ,下面就记载下来以备以后观看。 aggregate在scala语言中本来就存在,它的输入值和返回...

2018-08-09 19:14:42 1530 0

原创 getCallSite方法的作用

SparkContext中getCallSite方法的作用 先看图片如下: 源码如下: def getCallSite(skipClass: String => Boolean = sparkInternalExclusionFunction): CallSite ...

2018-03-24 12:27:30 602 2

原创 SparkStage的划分(spark2.2)

SparkStage的划分(spark2.2) Spark提交stage时调用一系列的runJob()方法,最后会调用到DAGScheduler的runJob方法,该方法代码如下所示: def runJob[T, U]( rdd: RDD[T], func:...

2018-03-12 17:02:30 190 0

原创 Spark2.2Driver和Executor状态改变机制

Driver和Executor的状态改变机制 我们先来看Driver的状态改变机制 源码如下 case DriverStateChanged(driverId, state, exception) => state match { case ...

2018-02-03 23:06:10 368 0

原创 spark2.2 注册机制

Spark的 Master、Driver、Application注册 那么我们就以Application为例看看注册机制 case RegisterApplication(description, driver) => // TODO Prevent re...

2018-02-03 22:12:31 211 0

原创 Spark2.2中 SparkContext的初始化操作

Spark2.2中SparkContext的初始化操作 SparkContext的主构造函数中执行(也就是一定会) val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode) graph...

2018-02-03 15:29:42 1127 0

原创 什么是RDD ?

突然看到以前的总结,好怀念,这里就贴出来打击看一下吧 Spark知识总结 RDD 什么是RDD ? (Resilient Distributed Datasets)弹性分布式数据集 弹性 RDD可以在存储在内存和磁盘之间,并且自动或者手动切换 RDD具有良好的容错性(即R...

2018-02-01 13:24:13 1449 0

原创 shell 脚本特殊变量

经常忘记shell 脚本中特殊的变量,哎没办法今天就做一个总结备忘 $# 是传给脚本的参数个数 $0 是脚本本身的名字 $1 是传递给该shell脚本的第一个参数 $2 是传递给该shell脚本的第二个参数 $@ 是传给脚本的所有参数的列表 $* 是以一个单字符串显示所有向脚本传递的参数,与位置...

2018-01-30 22:45:58 151 0

原创 百度返回的JSON数据解析返回的objURL(python版本)

这几天需要写一个爬虫(用的是Python的Scrapy框架),但是获得百度的数据之后发现获得的图片的objURL是算法加密的,于是就网上找了找怎么解析百度的objURL数据,经过多方磨难,写出了以下Python语言的解密代码。这里贴出来用于分享和备忘。(高手绕道) import re txt =...

2018-01-30 14:24:01 1943 2

提示
确定要删除当前文章?
取消 删除