Hadoop
ciedecem
这个作者很懒,什么都没留下…
展开
-
Moving data in and out of hadoop
Moving data in and out of Hadoop, which I’ll refer to in this chapter as data ingress and egress, is the process by which data is transported from an external system into an internal system, and vice原创 2013-09-12 19:46:53 · 955 阅读 · 0 评论 -
Spark部署及应用
Link: http://www.csdn.net/article/a/2014-07-02/15819160——访Spark亚太研究院院长、首席专家王家林大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且转载 2014-07-09 13:23:12 · 849 阅读 · 0 评论 -
1亿的图片+视频,雅虎发布超大Flickr数据集
http://www.csdn.net/article/2014-07-07/2820559雅虎已经发布了一个巨大的数据集为研究人员进行实验。这个数据集由1亿图片和70万视频的URL组成,同时也包含了它们的元数据。在不久的将来,一个更大的包含音频和视频的由超级计算机处理的数据集将能被使用。Yahoo Flickr Creative Commons当下已有1亿转载 2014-07-09 13:30:51 · 5432 阅读 · 0 评论 -
Linkedln技术高管Jay Kreps:Lambda架构剖析
http://www.csdn.net/article/2014-07-08/2820562-Lambda-LinkedlnJay Kreps是Linkedln的一名在线数据架构技术高管,其负责Linkedln开源项目,包括Apache Kafka、Apache Samza、Voldemort以及Azkaban等项目。在日常工作中,Jay Kreps经常被问及有关Lambda架转载 2014-07-09 13:31:40 · 834 阅读 · 0 评论 -
雾计算:一种新型的数据泄露检测与追踪技术
Original Link: http://www.jdz.gov.cn/xxgk/bmyd/bmjs/201306/t20130606_265666.htm转载 2014-09-22 09:45:48 · 1557 阅读 · 0 评论 -
云计算受限海量数据 雾计算成驱动未来科技真正力量
link: http://www.newhua.com/2014/0519/261551.shtml转载 2014-09-22 09:50:37 · 986 阅读 · 0 评论 -
【Hive】 cli 的基本用法
Original Link: http://archive.cloudera.com/cdh/3/hive/language_manual/cli.html转载 2014-09-22 17:06:50 · 930 阅读 · 0 评论 -
【HIVE】join
http://archive.cloudera.com/cdh/3/hive/language_manual/joins.html转载 2014-09-22 17:54:54 · 765 阅读 · 0 评论 -
[big data] Azkaban
http://bigdata.globant.com/?p=441AzkabanOverviewAzkaban is simple batch scheduler for constructing and running Hadoop jobs or other offline processes.A workflow scheduler all转载 2014-08-17 22:23:38 · 936 阅读 · 0 评论 -
[official] Azkaban
http://azkaban.github.io/azkaban/docs/2.5/#project-uploadshttp://azkaban.github.io/azkaban/docs/2.5/#job-configuration转载 2014-08-17 22:25:08 · 485 阅读 · 0 评论 -
缩写-IT专业术语
今天偶然YACC - Yet Another C Compiler(另一种C语言编译程序)YARN - Yet Another Resource Negotiator原创 2014-10-03 23:42:41 · 721 阅读 · 0 评论 -
已知的Hadoop关键配置
1. 配置选项 hadoop.tmp.dirfs.default.namehdfs://hdnode1m:9000hadoop.tmp.dir/home/grid/disk该目录下会存放hadoop的log,该选项需要在core-site.xml原创 2014-04-20 21:53:09 · 641 阅读 · 0 评论 -
[hadoop ecosystem] 序列化和反序列化的工具
1. 早起hadoop使用Jute来做序列化,UTE是跨语言序列化/反序列化工具zookeeper仍在使用它。2. 现在流行Thrifthttp://thrift.apache.org/原创 2014-01-26 15:35:26 · 694 阅读 · 0 评论 -
[1.2.1]
http://localhost:50030/jobtracker.jsphttp://localhost:50070/dfshealth.jspexport PIG_INSTALL=$HOME/bin/pig-0.12.0export JAVA_HOME=$HOME/bin/jdk1.7.0_40/export HADOOP_INSTALL=$HOME/bin/hadoo原创 2013-11-06 13:58:30 · 1056 阅读 · 0 评论 -
[pig] encountered errors at the first time
1. Error Handling : -stop_on_failureOoops! Some job has failed! Specify -stop_on_failure if you want Pig to stop immediately on failure.With multi-query execution Pig processes an entire s原创 2013-10-30 12:19:57 · 1016 阅读 · 0 评论 -
[hadoop] basic knowlege
1. hadoo 新旧版本mapreduce 是新版的,大概从0.20就开始用了。mpred 是旧版的原创 2013-10-30 19:38:34 · 634 阅读 · 0 评论 -
Hadoop Map/Reduce Implementation
原文链接: http://horicky.blogspot.com/2008/11/hadoop-mapreduce-implementation.htmlHadoopMap/Reduce ImplementationIn my previous post, I talk aboutthe methodology of transforming a sequential alg转载 2013-10-31 20:09:25 · 922 阅读 · 0 评论 -
[java] jps, jstatd命令
http://blog.csdn.net/gtuu0123/article/details/6025520jps -- Java Virtual Machine Process Status Tool 可以列出本机所有java进程的pid jps [ options ] [ hostid ] 选项-q 仅输出VM标识符,不包括class name,jar转载 2013-11-05 19:38:12 · 1224 阅读 · 0 评论 -
hadoop conf erros
start-all.sh> ./sbin/start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [localhost]localhost: starting namenode, logging to /usr/bin/hadoop转载 2013-11-05 00:15:37 · 4216 阅读 · 3 评论 -
[pig] 统计行数和单词个数wordcount
原文链接:http://blog.csdn.net/hijk139/article/details/8560131统计行数和单词个数wordcount--统计数据的行数 cd hdfs:/// A = LOAD '/logdata/2012*/*/nohup_*' AS (name:chararray) ; B = GROUP A BY name; C =转载 2013-11-11 15:08:47 · 3530 阅读 · 0 评论 -
sort +awk+uniq 统计文件中出现次数最多的前10个单词
实例cat logt.log|sort -s -t '-' -k1n |awk '{print $1;}'|uniq -c|sort-k1nr|head -100统计文件中出现次数最多的前10个单词使用linux命令或者shell实现:文件words存放英文单词,格式为每行一个英文单词(单词可以重复),统计这个文件中出现次数最多的前10个单词。cat words.txt | s转载 2013-11-11 15:11:29 · 1979 阅读 · 0 评论 -
hadoop info 1
http://zhidao.baidu.com/link?url=OagzJhsy7zJm5FeNGXhNBuxkXXk2SAgjs2UjqhxDsSGNLmJbU2rrdMX21xNEJ8GJ90h5zONMYeDPQgAGfsSS_K,就当是抛砖引玉了。相信楼主知道,hadoop的文件系统叫做hdfs,就是hadoop分布式分布式文件系统的中文简写。这个系统是对google的转载 2013-10-21 07:57:17 · 641 阅读 · 0 评论 -
derby database -apache
Apache Derby, an Apache DB subproject, is an open source relational database implemented entirely in Java and available http://db.apache.org/derby/oozie is based on it.http://oozie.apach原创 2013-12-26 17:10:47 · 749 阅读 · 0 评论 -
Apache Flume
Apache Flume 采集大数据为了满足高通量数据流的采集和输送要求,人们开发了多种技术,其中,Apache Flume成为向hadoop送入数据的现实标准。Flume部署为一个或多个Agent, Agent包括三种插件接式组件: sources, Channels,sinks原创 2014-01-12 22:21:31 · 822 阅读 · 0 评论 -
SOLOMO, LBS
SoLoMo,即社交(social)+本地化(local)+移动(mobile),由IT风险投资人约翰·杜尔首次提出该概念。它是PC、移动设备和真实社会关系的外延,代表着未来互联网发展的趋势。转载 2014-10-16 10:32:10 · 876 阅读 · 0 评论