大数据
大数据的未来
这个作者很懒,什么都没留下…
展开
-
大数据挖掘方法介绍
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其原创 2014-08-07 11:07:17 · 1604 阅读 · 0 评论 -
hadoop 二次排序
hadoop 二次排序1 31 21 13 33 22 22 13 1排序后:1 11 21 32 12 23 13 23 3代码为:package com.hadoop.test.SecondSort;im原创 2014-12-31 16:09:03 · 786 阅读 · 1 评论 -
Hadoop二次排序的其他写法
Hadoop二次排序的其他写法二次排序原理在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordReader会将文本的字节偏移量作为key,这一行的文本作为value。这原创 2014-12-31 16:21:57 · 941 阅读 · 1 评论 -
Hadoop 默认排序
Hadoop 默认排序1 31 21 13 33 22 22 13 1排序后:左右前面一列排序 后面一列不排序 要想第二列也排序 请看 Hadoop二次排序1 31 21 12 22 13 33 23 1代码为:原创 2014-12-31 16:13:43 · 1329 阅读 · 1 评论 -
Hadoop 自连接
Hadoop自连接实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。 child parent Tom LucyTom Jack Jone LucyJone JackLucy原创 2015-01-01 19:37:17 · 850 阅读 · 1 评论 -
hadoop 倒排索引
Hadoop 倒排索引原创 2015-01-02 19:53:57 · 756 阅读 · 1 评论 -
zookeeper应用场景!
Zookeeper应用场景:分布式队列FIFO(先进先出)Barrier(同步队列)共享锁集群管理leader选举命名服务分布式应用配置项的管理等FIFO设计思路1.在/queue-fifo的目录下创建 SEQUENTIAL 类型的子目录 /x(i),这样就能保证所有成员加入队列时都是有编号的。2.出队列时通过 getChildr原创 2015-05-22 23:34:34 · 773 阅读 · 1 评论 -
hadoop hdfs dfs 命令讲解
hdfs dfs命令appendToFileUsage: hdfs dfs -appendToFile ... 追加一个或者多个文件到hdfs制定文件中.也可以从命令行读取输入.· hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile· hdfs dfs -appendToFile localfile1 localf原创 2015-05-23 21:20:49 · 53057 阅读 · 1 评论 -
hadoop2.6.0伪分布式安装
准备linux环境【java、ip、hostname、hosts、iptables、chkconfig、ssh】下载稳定版2.6.0修改etc/hadoop目录下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml启动验证下面主要配置文件:core-site.xml:fs.defau原创 2015-05-23 16:55:43 · 855 阅读 · 1 评论 -
hbase 批量插入api
1、数据格式a.txt:1363157985066 1372623050300-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c.aliimg.com 2427 248124681 2001363157995052 138265441015C-0E-8B-C7-F1-E0:CMCC 120.197.40.44 0 264 0 200原创 2015-07-27 21:18:02 · 4308 阅读 · 1 评论 -
hbase
package com.utils;import java.io.IOException;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.h原创 2015-07-23 20:24:34 · 797 阅读 · 1 评论 -
hadoop join问题1
hadoop join问题1 Join讲解1: 获取员工所在部门信息,输出格式要求:员工编号,员工姓名,部门名称,部门编号1、原始数据员工数据empno ename job mgrhiredate salcomm deptnoloc7499 allen salesman 7698 1981-02-20 1600300 30原创 2014-12-29 20:05:52 · 734 阅读 · 1 评论 -
hadoop 处理日志
hadoop 处理日志127.0.0.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HTTP/1.0" 200 38435 0.038182.131.89.195 - - [03/Jul/2014:23:37:43 +0800] "GET / HTTP/1.0" 301 - 0.000127.0.0.1 - -原创 2014-12-29 17:36:14 · 960 阅读 · 1 评论 -
mapreduce Top K算法
Hadoop topK 算法 非常重要的!!!面试一定考到的!!!哈哈哈原创 2014-12-27 20:36:53 · 1431 阅读 · 1 评论 -
Hadoop大数据学习线路图
hadoop学习路线云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需原创 2014-08-22 11:44:53 · 2681 阅读 · 0 评论 -
hadoop2 完全安装配置
Hadoop2原创 2014-09-27 14:14:32 · 668 阅读 · 0 评论 -
hadoop 伪分布式学习步骤
hadoop 伪分布式学习步骤Hadoop伪分布式学习步骤一、安装Linux需要的步骤(下面是利用镜像文件安装Linux的步骤),懂得安装Linux下面就不要看了 用vm 打开解压的专用centos,找到镜像文件为: 注意在打开镜像文件之前,有参数要设置: 安装后出现的界面为: 用 root超原创 2014-12-20 11:49:15 · 486 阅读 · 0 评论 -
单词计数的mapreduce原理
单词计数------mapreduce原理及代码原创 2014-12-21 22:21:09 · 1628 阅读 · 0 评论 -
hadoop 打包运行 单词计数
package cmd;/** * 命令行运行//打包运行 */import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;impo原创 2014-12-22 18:08:16 · 659 阅读 · 0 评论 -
Hadoop partition分区实践
package partition;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import原创 2014-12-22 20:27:22 · 807 阅读 · 1 评论 -
hadoop 最大值最小值
Hadoop原理原创 2014-12-27 18:27:43 · 2016 阅读 · 2 评论 -
hadoop mapreduce排序原理
mapreduce 简单排序原创 2014-12-27 12:19:48 · 1839 阅读 · 1 评论 -
mapreduce 平均值
hadoop 求平均值原创 2014-12-27 13:44:00 · 1409 阅读 · 2 评论 -
Hadoop 数据去重
Hadoop 数据去重代码测试原创 2014-12-26 21:54:25 · 2627 阅读 · 1 评论 -
MapReduce实现join操作
MapReduce实现join操作前阵子把MapReduce实现join操作的算法设想清楚了,但一直没有在代码层面落地。今天终于费了些功夫把整个流程走了一遭,期间经历了诸多麻烦并最终得以将其一一搞定,再次深切体会到,什么叫从计算模型到算法实现还有很多路要走。数据准备首先是准备好数据。这个倒已经是一个熟练的过程,所要做的是把示例数据准备好,记住路径和字段分隔符转载 2015-11-07 22:48:08 · 467 阅读 · 0 评论