2017年12月_码太狼

12月 11月 09月 07月 05月 04月 02月

原创 hue-大数据的工具配置安装

大数据生态圈里面有很多技术，比如hdfs、yarn、spark、hive、hbase等，但这些技术很多都得命令行敲命令来执行管理。hue就是这样一个为大数据技术提供界面操作，并将各个技术做整合的工具。

2017-12-25 09:05:38 3958

原创 hadoop（三）-编译hadoop2.x

编译hadoop，hadoop是用java写的，虽然很多功能都可以完全依靠jvm而不依赖操作系统可以实现，但有些功能必须要依赖操作系统系统来实现，比如（bzip2, lz4, snappy, zlib压缩）这时就需要对hadoop进行编译，生成本操作系统的native文件。编译环境maven3(配置国内镜像)jdk1.8hadoop2.7.5编译安装proto

2017-12-20 17:15:57 3583

原创 hbase1.3配置snappy压缩

hbase1.3配置snappy压缩对hbase数据进行压缩的算法很多，snappy、lz0，lz4，gz等。压缩和不压缩相比，在写入时的编码速度和读时的解码速度都有一定的cpu损耗，但是在容量上都能降低30%甚至更多，就是一种用cpu计算来换空间的取舍。

2017-12-14 23:36:07 4169

原创 markdown转换word，pandoc

mardown由于写法格式简单、文档美观简洁、书写速度快捷等特点，特别适合用于工作的非正式文档和科学研究中，但是在传播中word更为通用，这里介绍一个将markdown转换为word的工具，pandoc。1.下载软件pandoc官网 https://github.com/jgm/pandoc 下载地址 https://github.com/jgm/pandoc/releases 在releas

2017-12-13 10:53:37 5082

原创 spark源码远程调试开发

对于spark源码和spark执行过程有兴趣的同学，可以搭建一个spark的源码调试环境，来调试远程spark源码执行过程。由于spark启动都是通过脚本设置一些环境变量执行指定类来启动的，所以在ide里面不能直接调试，需要预先启动一个spark执行代码，然后通过本地的代码进行远程调试。1.环境idea 2017maven 3.3（可以将maven的镜像地址设置成国内的，不然编译很久或编译不成功

2017-12-11 18:17:05 5208

原创 python编程入门

python编程入门，搭建python编程环境，配置python环境，在ide里面实现python的hello world1.python环境https://www.python.org/downloads/release/python-363/下载对应版本的python环境包下载完成之后，按照提示安装完成，并配置环境变量。配置好后，在命令行里面输入python –version测试是否配置

2017-12-11 10:02:26 5030

原创 mysql5.7 zip版本安装过程

这里用的是mysql5.7 windows的zip版本。对zip解压版独有好感，因为zip版本对系统依赖小，不会向注册表写入各种东西，也不会在系统目录下面放一下执行文件。因为方便用脚本命令部署(命令也没有很多），可以用来做一键部署的程序。mysql5.7以后安装稍微有点不太一样去掉了默认的配置文件和data目录，启动的时候还会设置一个随机的密码（之前密码为空）1.下载https://dev.my

2017-12-09 17:31:12 4719

原创 spark快速入门

spark快速入门的hellowold

2017-12-08 11:20:34 6507

原创 spark-sql(四)---读写elasticsearch数据

sparksql读写elasticsearch sparksql将elasticsearch数据转换成RDD进行计算，测试下sparksql对elasticsearch的读和写的操作。1环境1.1软件环境hadoop 2.7.3spark 2.2elasticsearch 5.6.4jdk 1.81.2机器环境节点配置组件角色...

2017-12-07 14:44:05 10260 8

原创 spark-sql(三)---spark-sql性能测试

sparksql大数据量下测试性能2.数据环境从网上扒过来的数据，某些网站泄漏的帐号信息，数据重复冗余很少。处理了一下，在原基础上增大了数据量。准备的数据量大，是保证结果误差更小，也检测下sparksql数据处理能力。 9个字段，128亿行，纯文本大小1.2T。3.textfile表textfile表是默认的存储文件

2017-12-04 14:56:33 5818

转载 Linux 内存(free buffer cache)

Linux下如何查内存信息，如内存总量、已使用量、可使用量。经常使用Windows操作系统的朋友，已经习惯了如果空闲的内存较多，心里比较踏实。当使用Linux时，可能觉的Linux物理内存很快被用光（如频繁存取文件后），当程序结束后内存没有被释放。空闲内存少的可怜，心里总不踏实。Linux操作系统的内存管理方式与Windows不同，Linxu会尽量多的利用内存，让尽可能多的内存参与工作

2017-12-02 15:26:49 4049

多端口转发工具

2014-12-05

用命令行隐藏文件的简单方法

用命令行隐藏文件的简单方法无需第三方软件

2012-05-04

计算器java源码

计算器java源码模拟计算器的java编程比较乱新手

2012-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人