- 博客(10)
- 问答 (1)
- 收藏
- 关注
转载 采用Hibench进行大数据平台(CDH)基准性能测试
参考博客地址:http://blog.csdn.net/wenwenxiong/article/details/77628670 http://www.cnblogs.com/hellowcf/p/6912746.html最近的项目要给客户部署一套大数据平台(CDH),因此要出一个关于平台本身的性能测试。对测试流程不太了解,相比于项目功能测试,这种平台...
2018-03-07 15:27:54 10438 2
转载 采用YCSB对Hbase进行性能测试
参考博客:http://blog.csdn.net/bryce123phy/article/details/51254235 https://zhuanlan.zhihu.com/p/29370650上一篇对大数据平台基准测试结合其他博客作了一个总结,这两天需要对hbase进行性能测试,这里也对雅虎的YCSB作一下自己的总结。1、YCSB介绍YCSB,全称为“Yah...
2018-03-09 17:36:27 2409
原创 hbase跨集群迁移(两集群网络不通)
这两天公司集群需迁移到华为FI大数据平台,hive,hbase,脚本等迁移就开始采坑了。。。先是查看资料hbase迁移大致有几种方案:1、distcp2、CopyTable3、Export and Import4、copyToLocal and copyFromLocal由于迁移是从cdh开源集群迁移到华为大数据平台(FI),一开始采用的第4中方法,网上找了些资料,数据也能正常上传,但是执行hba
2018-01-18 17:24:15 1669
原创 spark统计文件行数
虽然接触大数据2年了,以前对spark使用都是和solr建索引任务,由于目前的工作很少涉及spark了,为了不遗忘,从头开始复习一下spark,不同的是这次记录下来,一来方便自己查阅,二来对于刚入门的同行也算个案例。PS.高手勿喷1、spark读取文件,统计行数Intellj idea 开发工具环境就不在介绍了,网上很多教程,唯一需要注意的是你的spark或者scala版本与本地一致即可。
2018-01-04 15:09:06 10133
原创 Python命令行应用工具docopt
Python有很多写命令行应用的工具,如argparse, docopt, options...这里记录一下关于docopt的相关用法。#!/usr/bin/python#-*- coding:utf-8 -*-########################################注意:Usage 必须写,且必须和Options间隔一行#Usage 中的参数需在
2018-01-03 18:20:01 650
转载 python requests库相关操作api
看了一些python的代码,对python中requests的相关用法参数不是很理解,就百度了一下,发现一篇比较好的博文。原文地址:http://blog.csdn.net/shanzhizi/article/details/50903748
2017-12-13 10:00:09 385
原创 mysql创建用户以及赋权
1、创建用户CREATE USER 'username'@'host' IDENTIFIED BY 'pwd'; username --- 你将创建的用户名,;host ---- 指定该用户在哪个主机上可以登陆,如果是本地用户可用localhost, 如果想让该用户可以从任意远程主机登陆,可以使用通配符%;pwd --- 该用户的登陆密码,也可以为空; 例如创建一个用户
2017-12-08 10:19:18 501
原创 sparkstreaming官方文档笔记
1、sparksteaming 入门例子 注:代码摘自spark官方文档 http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-exampleimport org.apache.spark._import org.apache.spark.streaming._import
2017-12-07 15:27:35 303
翻译 Spark SQL RDD与DataFrames相互转换
一 、spark-SQL的DataFrame与RDD的相互转换通常有两种(spark 1.6.x):第一种方式是使用反射机制推断RDD中schema和类型信息。适用于已知schema的场景;第二种方式是通过程序接口构造数据的schema,将schema应用于RDD,此方式适用于程序开发时才能确定数据schema、类型的场景。1.1 第一种,通过反射推断schema信息 sp
2017-06-17 14:52:28 4314
转载 spark-SQL的DataFrame和DataSet
1、如何对DataFrame中封装的数据进行操作 方法一: sqlContext.read() 返回DataFrameReader对象 sqlContext.read().json("student.json") 读取一个json文件(这个json文件中的内容不能是嵌套的)读进来变成DataFr
2017-06-17 14:26:16 711
空空如也
Servlet连接MySQL数据库,学了两天还是不懂
2016-02-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人