2017年12月_九师兄

12月 11月 10月 09月 08月 07月 03月 02月

原创【Hbase】HBase的shell命令总结

1。filte 假设数据如图 01_00000066167a7d752c0091a6e2754adb column=base:base, timestamp=1513920606527, value=0

2017-12-25 10:09:49 658 2

原创 intellij idea如何打包

intellij idea打包和eclipse差不多按标号依次选择选择主类外部依赖的jar包，可以导入，也可以不选择，选择的话，打包会很大这里我没有打包进去

2017-12-21 14:38:49 1352

原创 01-eclipse打包运行程序总是报错java.lang.NoClassDefFoundError和ava.lang.ClassNotFoundException（打包原理）

1。今天写了一个程序没有任何错误 2。但是运行的时候总是报错 3。很郁闷啊。有没有，难道是我打包错误了？下面看看我的打包选择打包内容选择主类上传到服务器运行报错我以为是jar有版本冲突问题，找了半天没找到，因为这个项目是拷贝别人的，别人都能打包运行，为啥我的不行，我注释掉jsonObject这个类，然后再次打包运行还是错，报另外一个；类没找到，很是纳闷。最后请教大神真正的

2017-12-18 12:13:35 5751 1

原创 Eclipse报错：this compilation unit is not on the build path of a java project

从gitHub拉去一个项目，直接导入，想打印一句话，发现问题 Eclipse报错： “this compilation unit is not on the build path of a java project”，

2017-12-15 16:19:24 10983 5

原创 02-eclipse中使用git

有的eclipse已经自带了GIt了，就不用安装了。如果，想重新安装，可以先卸载GIT，卸载不同eclipse卸载不一样： 1.在Eclipse中依次点击菜单”Help”->”About Eclipse”。弹出图1所示对话框，点击”Installation Details”按钮，弹出图2所示对话框。选中要卸载的插件（按住Ctrl可多选），点击”Uninstall…”按钮。2.Adt——abou

2017-12-15 15:24:30 595

原创 01-windows下git远程拉取项目

1。首先到官网下载git安装包Git-2.15.1.2-64-bit.exe，双击安装2。随便建立一个目录，哪里都行F:\test\learngit 然后在里面右键鼠标Git Bash here 然后打开你的GitLab页面http://xxxxxx:8090 ，登陆进去，找到一个项目，然后git它。（注意这里GitLab和GitHub是不一样的，要注意的是GitLab是可以自己公司...

2017-12-15 15:04:02 7803

前言　　在大型分布式系统中，采用事件监听机制是最常见的。为什么要使用事件监听机制？假如SparkUI采用Scala的函数调用方式，那么随着整个集群规模的增加，对函数的调用会越来越多，最终会受到Driver所在JVM的线程数量限制而影响监控数据的更新，甚至出现监控数据无法及时显示给用户的情况。由于函数调用多数情况下是同步调用，这就导致线程被阻塞，在分布式环境中，还可能因为网络问题，导致线程被长时间占用

2017-12-09 17:47:14 2047

原创 scala学习-12-scala读取java项目下Src目录下的properties文件

scala读取java项目下Src目录下的properties文件 package scalaimport java.util.Propertiesimport java.io.FileInputStreamimport scala.tools.scalap.Mainobject PropertiesScalaUtils { def loadProperties(key:String):Un

2017-12-08 14:57:37 4378

原创 spark学习-55-源代码：SparkSession的的创建

1。首先我们在自己的程序中创建SparkSession spark= SparkSession.builder() .appName("lcc_java_habase_local") .master("local[4]") .getOrCreate(); 2。我们看看这

2017-12-08 14:17:41 7580

原创 spark学习-54-Spark RDD的clean()方法

spark里面，大量使用了一个方法, ClosureCleaner.clean()// 这里调用了SparkContext的clean方法 // clean方法实际上调用了ClosureCleaner的clean方法，这里一再清除闭包中的不能序列化的变量，防止RDD在网络传输过程中反序列化失败。 val cleanF = sc.clean(f)private[spark] def c

2017-12-07 20:36:37 2659

原创 scala学习-11-package object

Scala中的下划线到底有多少种应用场景 1、作为“通配符”，类似Java中的*。如import scala.math._2、:_*作为一个整体，告诉编译器你希望将某个参数当作参数序列处理！例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数，并乘以2，可以用以下办法：a.filter(%2==0

2017-12-07 15:10:41 1018

原创【Hbase】报错org.apache.hadoop.hbase.RegionTooBusyException

执行了一个spark-submit程序，操作hbase但是报错org.apache.hadoop.hbase.RegionTooBusyException，具体错误如下17/12/07 11:49:41 INFO client.AsyncProcess: #70, table=www:person_dist, attempt=10/35 failed=826ops, last exception:

2017-12-07 13:14:25 8589 4

原创 spark学习-53-Spark下Java版HBase下的根据权重获取最真实数据

1。我们有一个一批数据，数据格式相同，但是来源不同，根据来源有不同的真实级别，比方说编号0001是来自确认的警察局的数据，这个数据的真实度为100%，那么权重看可以设置为100，编号0002是来自人才市场的数据，这个数据的真实度为90%（因为可能有人信息不太真实，比如年龄），那么权重看可以设置为90，编号0003是来自智联招聘的数据，这个数据的真实度为80%（因为可能有人信息不太真实，比如年龄），那

2017-12-06 22:13:00 1079

原创 spark学习-52-Spark的org.apache.spark.SparkException: Task not serializable

报错这个一般是org.apache.spark.SparkException: Task not serializable

2017-12-06 21:53:51 1734

原创 spark学习-51-Spark的task任务的运行

1。看完Spark的job调度http://blog.csdn.net/qq_21383435/article/details/78700430后再来看这个2。在DAGScheduler.scala中，最后调用// TODO:最后所有的Stage都转换为TaskSet任务集去提交，最后开始执行任务 // 这里调用的是TaskScheduler的接口方法submitTasks（）提交一系列

2017-12-03 14:05:08 1030

原创 spark学习-50-Spark的stage的划分

1。stage的划分主要依据窄依赖和宽依赖窄依赖：指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区，和两个父RDD的分区对应于一个子RDD 的分区。图中，map/filter和union属于第一类，对输入进行协同划分（co-partitioned）的join属于第二类。宽依赖：指子RDD的分区依赖于父RDD的所有分区，这是因为shuffle类操作，

2017-12-03 11:25:17 1461 1

原创 spark学习-49-Spark的job调度

1。先看一下从源码层面梳理Spark在任务调度与资源分配上的做法。这里涉及几个小知识点：　　1.1。最上面的7个圆圈是如何划分stage的？　　　　原则：凡是RDD之间是窄依赖的，都归到一个stage里，这里面的每个操作都对应成MapTask，并行度就是各自RDD的partition数目。凡是遇到宽依赖的操作，那么就把这一次操作切为一个stage，这里面的操作对应成ResultTas

2017-12-03 11:10:12 1543