风筝中有风-CSDN博客

转载采用Hibench进行大数据平台（CDH）基准性能测试

参考博客地址：http://blog.csdn.net/wenwenxiong/article/details/77628670 http://www.cnblogs.com/hellowcf/p/6912746.html最近的项目要给客户部署一套大数据平台（CDH），因此要出一个关于平台本身的性能测试。对测试流程不太了解，相比于项目功能测试，这种平台...

2018-03-07 15:27:54 10573 2

转载采用YCSB对Hbase进行性能测试

参考博客：http://blog.csdn.net/bryce123phy/article/details/51254235 https://zhuanlan.zhihu.com/p/29370650上一篇对大数据平台基准测试结合其他博客作了一个总结，这两天需要对hbase进行性能测试，这里也对雅虎的YCSB作一下自己的总结。1、YCSB介绍YCSB，全称为“Yah...

2018-03-09 17:36:27 2488

这两天公司集群需迁移到华为FI大数据平台，hive，hbase，脚本等迁移就开始采坑了。。。先是查看资料hbase迁移大致有几种方案：1、distcp2、CopyTable3、Export and Import4、copyToLocal and copyFromLocal由于迁移是从cdh开源集群迁移到华为大数据平台（FI），一开始采用的第4中方法，网上找了些资料，数据也能正常上传，但是执行hba

2018-01-18 17:24:15 1750

原创 spark统计文件行数

虽然接触大数据2年了，以前对spark使用都是和solr建索引任务，由于目前的工作很少涉及spark了，为了不遗忘，从头开始复习一下spark，不同的是这次记录下来，一来方便自己查阅，二来对于刚入门的同行也算个案例。PS.高手勿喷1、spark读取文件，统计行数Intellj idea 开发工具环境就不在介绍了，网上很多教程，唯一需要注意的是你的spark或者scala版本与本地一致即可。

2018-01-04 15:09:06 10246

原创 Python命令行应用工具docopt

Python有很多写命令行应用的工具，如argparse, docopt, options...这里记录一下关于docopt的相关用法。#!/usr/bin/python#-*- coding:utf-8 -*-########################################注意：Usage 必须写，且必须和Options间隔一行#Usage 中的参数需在

2018-01-03 18:20:01 691

转载 python requests库相关操作api

看了一些python的代码，对python中requests的相关用法参数不是很理解，就百度了一下，发现一篇比较好的博文。原文地址：http://blog.csdn.net/shanzhizi/article/details/50903748

2017-12-13 10:00:09 433

原创 mysql创建用户以及赋权

1、创建用户CREATE USER 'username'@'host' IDENTIFIED BY 'pwd'; username --- 你将创建的用户名,;host ---- 指定该用户在哪个主机上可以登陆,如果是本地用户可用localhost, 如果想让该用户可以从任意远程主机登陆,可以使用通配符%;pwd --- 该用户的登陆密码,也可以为空；例如创建一个用户

2017-12-08 10:19:18 602

原创 sparkstreaming官方文档笔记

1、sparksteaming 入门例子注：代码摘自spark官方文档 http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-exampleimport org.apache.spark._import org.apache.spark.streaming._import

2017-12-07 15:27:35 346

翻译 Spark SQL RDD与DataFrames相互转换

一、spark-SQL的DataFrame与RDD的相互转换通常有两种(spark 1.6.x)：第一种方式是使用反射机制推断RDD中schema和类型信息。适用于已知schema的场景；第二种方式是通过程序接口构造数据的schema,将schema应用于RDD，此方式适用于程序开发时才能确定数据schema、类型的场景。1.1 第一种，通过反射推断schema信息 sp

2017-06-17 14:52:28 4386