- 博客(19)
- 收藏
- 关注
转载 hadoop组件概况
1. hadoop 生态概况Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。Hadoop的核心是YARN,HDFS和Mapreduce下图是hadoop生态系统,集成spark生态圈。在未来一段时间内,hadoop将于
2016-12-11 23:12:47 999
转载 正则表达式匹配邮箱
1. "^\\s*\\w+(?:\\.{0,1}[\\w-]+)*@[a-zA-Z0-9]+(?:[-.][a-zA-Z0-9]+)*\\.[a-zA-Z]+\\s*$"2.^[A-Za-z0-9][\\w\\-\\.]{3,12}@([\\w\\-]+\\.)+[\\w]{2,3}$两种方法,据说第一种是企业级代码,根据自己需要选择
2016-12-11 23:07:51 764
原创 hive udf
1.package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public classmyUDF extends UDF { public String evaluate(String str) { try { return "Hel
2016-12-04 22:08:14 389
转载 hadoop yarn-site.xml配置
参数默认值描述yarn.resourcemanager.hostname RM的hostnameyarn.resourcemanager.address${yarn.resourcemanager.hostname}:8032RM对客户端暴露的地址,客户端通过该地址向RM提交应用程序等yarn.reso
2016-11-29 16:59:40 8800
原创 java实现hadoop的cat命令
本人理解的就是读取指定目录下文件输出出来package com.hdfs;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.conf.Configuration;import or
2016-11-27 08:36:36 1185
原创 hadoop之 mapreduce
直接给上代码package com.hdfs;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWri
2016-11-27 08:01:13 260
原创 spark 安装
一.安装scala上官网下载scala压缩包解压到指定目录,然后配置环境变量(vi /etc/profile进入配置文件)如:export SCALA_HOME=/home/hadoop/local/opt/scala/scala-2.11.4export PATH=$PATH:$SCALA_HOME/bi二.安装java也就是安装jdk一样 也需要配置环境变量三.
2016-11-20 18:02:35 262
转载 spark与hadoop对比
1.spark的中间数据放到内存中,一次创建数据集,可以多次迭代运算,减少了IOd的开销,对于迭代运算效率更高。2.spark更适合于迭代运算比较多的ML和DM运算,因为在spark里面有RDD的抽象概念。3.spark比hadoop更通用。4.spark提供的数据集操作类型有多种,不想hadoop只提供了Map和Reduce两种操作。比如ap,filter,flatMap,sampl
2016-11-13 18:42:59 330
原创 java 随机生成名字
为了测试延云YDB的大量数据秒级查询功能需要伪造大量的数据,这里分享下如何随机生成人名直接给出代码如下:public class Mytest1 {public static void main(String[] args) {for (int i=0;i"楮", "卫", "蒋", "沈", "韩", "杨", "朱", "秦", "尤", "许", "何
2016-11-04 17:44:02 12846
转载 CASE WHEN用法
1. CASE WHEN 表达式有两种形式--简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASEWHEN sex = '1' THEN '男' WHEN sex = '2' THEN '女' ELSE '其他' END
2016-11-04 11:34:34 548
原创 随机数生成Math.random()
Math.random() 产生 [0,1]范围的数字。 假设你要生成 20~50之间的整数 你可以这么样做 [0~1]*30+20 等价于 [0*30~1*30]+20 随机生成两位数则是:Math.random()*90+10随机生成三位数则是:Math.random()*900)+100以此类推 就能得到你想要的答案了
2016-11-03 13:15:16 1408
转载 linux系统常见十大错误
学习大数据(hadoop、spark、延云YDB)一定要先了解Linux系统,这里和大家分享下linux系统常见的问题linux管理常见错误一:随意许可,原因是不理解许可 如果对许可配置不当,就会给黑客留下机会。处理许可问题的最简单方法是使用所谓的RWE方法,即Read(读取)、Write(写入)、Execute(执行)。假设你想让一个用户能够读取一个文件但不能写入文件。为此,你
2016-10-30 22:47:05 1273
转载 java socket
一,网络编程中两个主要的问题一个是如何准确的定位网络上一台或多台主机,另一个就是找到主机后如何可靠高效的进行数据传输。在TCP/IP协议中IP层主要负责网络主机的定位,数据传输的路由,由IP地址可以唯一地确定Internet上的一台主机。而TCP层则提供面向应用的可靠(tcp)的或非可靠(UDP)的数据传输机制,这是网络编程的主要对象,一般不需要关心IP层是如何处理数据的。目前较为
2016-10-27 13:29:10 220
翻译 常用的正则表达式
常用正则表达式正则表达式中有很多上述的具有特别意义的字符。首先是下列字符。[ ]范围描述符。[a-z]表示从a到z之间的任意一个。\w英文字母和数字。即[0-9 A-Z a-z]。\W非英文字母和数字\s空字符,即[\t\n\r\f]。\S非空字符。\d数字,即[0-9]。\D非数字。\b词边界字符(在范围描述符外部时)\B非词边界字符\b退格符(0x08)(在
2016-10-25 16:34:33 265
翻译 什么是大数据?
1.首先说下大数据产生的作用有多大,用三大信息化浪潮来对比说明信息化浪潮发生时间标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔等第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度腾讯等第三次浪潮2010年前后
2016-10-24 09:55:27 741
原创 安装hadoop之ssh无密码登录
为了更快的了解我们延云云计算公司的产品延云YDB,需要我们熟练安装hadoop产品,这里介绍下安装之前很重要的一步SSH无密码登录的步骤1.首先要ssh创建秘钥:ssh-keygen 回车后直接生成一对秘钥 id_rsa 和id_rsa.pub2.接下来就要把id_ras.pub追加到key里边去:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_k
2016-10-16 22:22:42 342
原创 linux系统下安装jdk环境变量
1.首先要先下载jdk,如果下载到windows系统下可以利用WinSCP工具转移到linux系统下。2.tar zxvf 加上jdk安装包就可以解压了(如果想移动jdk可进行 mv jdk1.8.0_60/usr/local操作)。3. vi /etc/profile 输入 i 加入以下内容export JAVA_HOME=/usr/local/jdk1.8.0_60export
2016-10-10 21:07:12 210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人