自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(87)
  • 收藏
  • 关注

转载 hdfs dfsadmin -fetchImage

1、DFSAdmin.java2、TransferFsImage.java3、Util.java4、...

2019-08-21 20:10:58 777

转载 impala invalidate metadata 问题

背景:CDH集群运行几天后主节点会报磁盘根目录空间不足警告,上机器看一下发现df和du结果差异巨大,猜测有些文件被删除但有进程并未释放文件句柄。排查:执行 lsof |grep "(deleted...

2017-07-28 11:33:15 694

转载 scala隐式转换优先级问题

隐式转换编译器会优先选择方法的参数作为转换对象,验证如下: object rct { implicit de...

2017-04-11 18:25:14 211

转载 scala 调用 java 方法参数匹配问题

scala调用java的FastJson时发生了一个方法参数匹配问题: scala和java几乎没有区别,可以互相调用。注意这里说的是几乎,总有那么少数,出人意料的惊喜在告诉你,scala就是scala。 ...

2017-03-02 15:06:34 573

转载 hdp zeppelin 数据可视化分析配置

hdp版本:执行:hdp-select status hadoop-client | sed 's/hadoop-client - \(.*\)/\1/'2.4.0.0-169zeppelin安装(摘录官...

2017-01-19 14:54:04 277

转载 Scala 多继承 & 依赖注入

依赖注入:trait Config { load val text: String def load: Unit}trait InMemoryConfig extends Config {...

2016-12-13 14:24:48 182

转载 Scala Loan Pattern

val dbCount = "url" val username = "user" val password = "pwd" def connLoanPattern[T <: {def close...

2016-12-12 16:11:03 86

转载 Ubuentu crontab运行scala不执行问题

改为java方式提交:java -cp /usr/wzx/RedPackeCompute.jar:/opt/scala-2.11.8/lib/scala-library.jar cn.rong.excavate.st...

2016-11-23 11:04:18 97

转载 spark direct kafka 将offset推到zookeeper

1、spark streamingdirect方式读取kafka性能要好很多,缺点是它不会去zookeeper更新offset,这将导致 基于zk的KafkaOffsetMonitor监控失效。由于我们流处...

2016-09-30 15:56:31 129

转载 hadoop linux inode 相关

起因: 近期spark集群执行任务时有stage抛出异常: java.io.IOException: Failed to create local dir in /mnt/yarn...

2016-09-19 14:28:23 255

转载 shell插入远程mysql数据

#!/bin/bashdateT=`date +"%Y-%m-%d" -d "-1 days"`dateN=`date +"%Y%m%d" -d "-1 days"`DB=coun...

2016-07-12 11:26:17 143

转载 Spark 异常:Trying to write more fields than contained in row

将json转为row落地存储为parquet: for type_name in types.value: print(type_name)...

2016-06-13 17:08:33 109

转载 spark on yarn 数据插入mysql

手动将jar包加在所有计算节点/opt/cloudera/parcels/CDH/lib/hadoop-yarn目录下例:scp /opt/jar/mysql-connector-java-5.1.39.jar root...

2016-05-27 16:58:08 293

转载 Spark SQL scala和java版本的UDF函数使用

java://注册UDF sqlContext.udf.register("getImei",new GetImei,StringType) public class Ge...

2016-05-04 10:22:19 445

转载 Spark Standalone模式 Master进程挂掉问题

环境:spark version :1.5.2运行模式:standalone过程分析:集群上跑着大量任务,但发现集群每运行两天就会挂掉一次。挂掉后集群所有work进程和master进程都会死掉。于是查看w...

2016-03-24 14:51:13 487

转载 Python Flask

不得不说python+Flask简洁、灵活1.安装setuptools下载setuptools-0.6c11.tar.gz并解压进入/usr/wzx/python/setuptools-0.6c11执行pyt...

2016-02-18 10:49:48 86

转载 信息增益(IG)特征提取实例

最近在做贝叶斯文本多分类,记录一下特征提取的过程:如果你对TF、DF、IDF不懂:Term Frequency:term 在文档d中的出现次数,记做tf。tf越高,意味着term 对于文档d 就越重要。...

2016-01-28 15:58:49 1103

转载 Spark MLlib SVM 文本分类器实现

好久没写博客了,最近搞了一个文本分类器,在此记录一下: 简介:支持向量机,因其英文名为supportvectormachine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为...

2015-12-30 13:58:21 282

转载 Crontab 任务不执行问题

缺少环境环境变量问题 把需要的环境变量export进来 OK ...

2015-11-27 14:48:33 97

转载 Spark源码解析之Storage模块

Storage模块整体架构 Storage模块主要分为两层: 通信层:storage模块采用的是master-slave结构来实现通信层,master(Driver)和slave(Exe...

2015-11-17 16:49:46 111

转载 Spark 二次排序实现

Spark二次排序的实现方式,记录以作备忘一、测试文件testsortTwo: [root@tongji ~]# hadoop fs -cat /user/wzx/testsortTwo...

2015-11-09 16:26:56 106

转载 scala 函数和方法

函数:面向过程时的叫法方法:面向对象时的叫法个人理解函数式可在一定场景下使代码更加简洁。 Scala: scala> val my...

2015-10-30 17:43:18 62

转载 Option[T] 作用

java中要知道一个 Java 里某个函数会不会返回null 只能依靠 JavaDoc 上的说明、去查看那个函式的源码来看。 scala中Option 类别代表了很可能没办法回传一个有意义的东西...

2015-10-28 13:34:12 150

转载 Spark on Yarn 任务提交流程源码分析

流程分析,以作备忘:shell调用org.apache.spark.deploy.SparkSubmit > org.apache.spark.deploy.yarn.Client打开org....

2015-10-21 10:28:21 515

转载 scala class和object的区别

Scala中类对象中不可有静态变量和静态方法,但是提供了“伴侣对象”的功能:在和类的同一个文件中定义同名的Object对象:(须在同一文件中;main方法定义在Object对象中) privat...

2015-10-21 09:25:34 291

转载 Spark job分配流程源码分析

job提交大体执行流程图: SparkContext : scheduler创建 // Create and start the scheduler...

2015-10-13 15:51:55 141

转载 Hello , Actor、Akka

Actor理解: actor是一个封装了状态和行为的对象,每个actor都通过message交流,从自己的mailbox(消息队列)中读取别的actor发送的消息,它们通过显式的传递消息来进行...

2015-09-24 14:08:47 49

转载 微博爬虫 java实现

java实现的新浪微博爬虫系统,主要难点有四:1.模拟登录,爬取时要带上cookie。2.如果出现Sina Visitor System(新浪访客系统),cookie中带上User-agent即可。...

2015-08-31 09:30:59 234

转载 solr solrj Facet

先看示例,再看概念有这么一个字段: <field name="csFacetTwo" type="string" indexed="true" stored="false"/&gt...

2015-07-06 10:41:06 88

转载 Hbase计数器异常Attempted to increment field that isn

该异常为要自增的字段不为数字类型,所以调用incrementColumnValue方法会报错首次put时指定为long字段:put.add(Bytes.toBytes("cf"),Bytes.toBytes("c...

2015-06-18 11:17:01 166

转载 MapReduce基准测试优化

Hadoop中自带了一个符合工业标准的基准测试工具TeraSort,用来比较hadoop的性能。这个工具尝试使用整个集群尽可能的对数据进行排序。TeraSort分为三个模块:1.TeraGen :该模块用...

2015-06-12 11:29:38 112

转载 MapReduce优化之字节级别快速排序

MapReduce默认使用RawComparator对map的输出键进行比较排序。内置的Writable类(例如Text和IntWritable)是字节级实现。这样不用将字节形式的类解排列(unmarshal)成类对象。如果...

2015-06-10 17:28:23 185

转载 Centos查看进程的线程数量

已Nginx为例:方法一:1.pstree -p 14686(PID)获取到nginx的四个子进程(或 ps -ef |grep nginx)2.cat /proc/15178(PID)/...

2015-05-27 17:10:10 1841

转载 Nginx支持比Apache高并发的原因

看到一个面试题,Nginx支持的并发为何比Apache要高?当时的第一反应就是 Apache是多进程多线程的的,Nginx是单线程的。 仔细研究后发现东西还很多:1.先从各自使用的多路复用IO模型说起: ...

2015-05-26 15:54:53 187

转载 redis高可用强扩展的集群方案

简介:http://www.oschina.net/p/codis使用文档:https://github.com/wandoulabs/codis/blob/master/doc/tutorial_zh.md ...

2015-05-14 09:16:05 108

转载 mysql性能优化之table_cache

声明:在5.1.3之后的版本中改叫做table_open_cache。table_cache主要用于设置table高速缓存的数量。由于每个客户端连接都会至少访问一个表,因此此参数的值与max_connections有关。...

2015-05-11 14:17:09 114

转载 mysql监控脚本

监控mysql服务状态,如果未运行则通知并重启,可加入定时任务中#!/bin/bash result=`/usr/bin/mysqladmin -u root -ppas...

2015-05-11 11:26:03 55

转载 centos6.5 unison文件双向同步搭建

部署环境:192.168.0.1 CM192.168.0.2 CX1.ssh无密码访问打通(步骤略)2.安装ocaml wget http://caml.inria....

2015-04-30 14:37:12 154

转载 redis AOF落地策略rewrite导致阻塞问题

1.修改配置文件redis.conf中的参数 no-appendfsync-on-rewrite 为 yes 默认值是 no #yes : 在日志重写时,不进...

2015-04-29 19:54:54 445

转载 Hbase运维手册

1.region情况 需要检查 1. region的数量(总数和每台regionserver上的region数) 2. region的大小 如果发现...

2015-04-23 16:28:57 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除