2014年11月_追寻北极

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

转载 Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任务，第三代就是Spark倡导的流Streaming。　　Spark兼容Hadoop的APi，能够读写Hadoop的HDFS HB

2014-11-30 16:59:08 726

转载两款高性能并行计算引擎Storm和Spark比较

对Spark、Storm以及Spark Streaming引擎的简明扼要、深入浅出的比较，原文发表于踏得网。Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（

2014-11-30 16:51:24 682

转载 spark应用场景

问题 1 Spark怎么会那么快 2 Spark的适用场景。苦苦搜索，总得结果。spark是对MapReduce计算模型的改进，可以说没有HDFS，MapReduce，就没有spark.尽管spark官网很少提到MapReduce.Spark可用于迭代，主要思想是内存计算，即将数据存到内存中，以提高迭代效率。（我认为就是通过缓存数据的方式减少IO的消耗，从而提高了性能）Spark

2014-11-30 16:50:41 1928

转载 Spark在Yarn上运行Wordcount程序

过往记忆专注于Hadoop、Spark、Hive、Flume、Hbase，QQ交流群：138615359首页HadoopSparkHiveHbaseFlume面试题面试题数据结构算法Linux网络编程Guavahadoop文档常用工具二维码生成Json格式化工具常用Linux

2014-11-30 16:24:53 1131

转载在eclipse中部署spark源代码

参考：http://cn.soulmachine.me/blog/20130611/http://scala-ide.org/download/current.html1.安装scala2.安装sbt3.安装Scala IDE http://scala-ide.org/download/current.html (要注意eclipse和Scala IDE的版本匹

2014-11-30 16:11:02 885

转载安装spark standalone mode

参考：http://spark.incubator.apache.org/docs/latest/http://spark.incubator.apache.org/docs/latest/spark-standalone.htmlhttp://www.yanjiuyanjiu.com/blog/20130617/1.安装JDK2.安装scala 2.9.3Spark 0.

2014-11-30 16:10:03 578

转载 spark从hdfs上读取文件运行wordcount

1.配置环境说明hadoop配置节点：sg202(namenode SecondaryNameNode) sg206(datanode) sg207(datanode) sg208(datanode)spark配置节点：sg201(Master) sg211(Worker)2.从hdfs上读取文件并运行wordcounta. 登录hadoop的主节点sg202 将要进行word

2014-11-30 16:09:37 1489

转载 (转)MapReduce Design Patterns（chapter 1）（一）

翻译的是这本书：Chapter 1.Design Patterns and MapReduceMapReduce 是一种运行于成百上千台机器上的处理数据的框架，目前被google，Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大，但它没有提供一个处理所谓“big data”的通用，普遍的情形，所以它能很好的解决一些问题，在处理某些问题上也存在挑战。这本书教给你在什么问题

2014-11-30 11:55:55 708

转载基于物品的协同过滤ItemCF的mapreduce实现

基于物品的协同过滤ItemCF数据集字段：1． User_id: 用户ID2． Item_id: 物品ID3． preference:用户对该物品的评分算法的思想：1．建立物品的同现矩阵A，即统计两两物品同时出现的次数数据格式：Item_id1:Item_id2 次数2．建立用户对物品的评分矩阵B，即每一个用户对某一物品的评分数据

2014-11-30 11:52:18 917

转载 maven 项目转 eclipse

现在很多开源项目都使用maven来管理.我喜欢用eclipse来查看源代码:在网上查找转换方法:下个maven.配置一下环境. 0. 为eclipse添加Maven2和MyEclipse插件 1. 将Maven项目转为Eclipse项目，具体操作为将dos命令窗口切换到Maven项目的目录下，输入命令： mvn eclipse:eclipse 2. 进入ec

2014-11-29 18:27:46 571

转载 Apache Storm技术实战之1 -- WordCountTopology

“源码走读系列”从代码层面分析了storm的具体实现，接下来通过具体的实例来说明storm的使用。因为目前storm已经正式迁移到Apache，文章系列也由twitter storm转为apache storm.WordCountTopology 使用storm来统计文件中的每个单词的出现次数。通过该例子来说明tuple发送时的几个要素source component

2014-11-29 15:03:07 1589

转载 hadoop面试题总结

目前也面试了几家公司hadoop工程师的职位，总结一下面试题，以供参考。一、Hadoop基础：1、 hadoop读写文件的过程？2、 hadoop集群可以从哪几个方面优化？块的大小怎么设置？槽位怎么设置？3、 mapreduce程序的执行过程是怎么样的？4、 mapreduce程序中join和group by是怎么实现的？5、 Hive

2014-11-29 15:00:01 843

转载在eclipse中调试storm-starter程序

1）下载twitter4j ：twitter4j-2.2.6.zip（http://pan.baidu.com/s/1bzSO3），并解压unzip twitter4j-2.2.6.zip 下载storm-starter-master.zip（git clone git://github.com/nathanmarz/storm-starter.git） 2）使用e

2014-11-29 14:59:02 2664

转载安装Storm客户端

Storm客户端能让我们使用命令管理集群中的拓扑。按照以下步骤安装Storm客户端：从Storm站点下载最新的稳定版本（https://github.com/nathanmarz/storm/downloads）当前最新版本是storm-0.8.1。（译者注：原文是storm-0.6.2，不过翻译的时候已经是storm-0.8.1了）把下载的文件解压缩到/usr/local/bin/sto

2014-11-29 14:55:40 1336

转载 Storm集群安装部署步骤【详细版】

作者: 大圆那些事 | 文章可以转载，请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础，详细描述如何快速搭建一个Storm集群，其中，项目实

2014-11-29 14:50:02 703

转载 storm问题总结

最近有朋友给我邮件问一些storm的问题，集中解答在这里。一、我有一个数据文件，或者我有一个系统里面有数据，怎么导入storm做计算？你需要实现一个Spout，Spout负责将数据emit到storm系统里，交给bolts计算。怎么实现spout可以参考官方的kestrel spout实现：https://github.com/nathanmarz/storm-kestrel

2014-11-29 14:47:34 1561

原创 storm-0.9.3 wordcount例子运行步骤（单机版）

网上关于Storm wordcount的例子很多，不过都是基于storm-0.9.0.1，在运行例子过程中torm 0.9.0.1.jar在maven中央仓库没有找到只有0.9.3，在运行过程中出现了好多问题。所以记下笔记。方便以后查看。1，下载Storm，地址为http://www.apache.org/dyn/closer.cgi/storm/apache-storm-0.9.3/ap

2014-11-29 14:42:50 2971

转载使用 Twitter Storm 处理实时的大数据

流式处理大数据简介Storm 是一个开源的、大数据处理系统，与其他系统不同，它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构，以及批处理和流式处理解决方案的发展形势。0 评论：M. Tim Jones, 独立作家, 顾问2012 年 12 月 05 日内容

2014-11-28 16:46:33 782

转载 storm 简介及单机版安装指南

本文翻译自： https://github.com/nathanmarz/storm/wiki/TutorialStorm是一个分布式的、高容错的实时计算系统。Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语，使我们对数据进行批处理变的非常的简单和优美。同样，Storm也对数据的实时计算提供了简单Spout和Bolt原语

2014-11-28 16:46:05 746

转载 Mahout推荐算法API详解

主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始，中国进入大数据风

2014-11-28 13:43:50 745

转载 IP地址数据库二分查找

利用二分逼近法(bisection method) ，解析800多万IP 只需几十秒，比较高效！原来的顺序查找算法效率比较低 readonly string ipBinaryFilePath = "qqzengipdb.dat"; readonly byte[] dataBuffer, indexBuffer; readonly

2014-11-28 13:41:04 807

转载优质博文list（分布式文件系统/存储/搜索）

转载请注明出处：http://blog.csdn.net/zbf8441372把一些好的，有用的博文搜集在这里，陆续更新，主题大都是涉及到分布式系统，文件和存储之类，还有云计算，包括一些强大的，热门的open-source，包括NoSQL生态系统，Hadoop家族，lucene全文搜索工具，一些Apache项目等等。另外一些比较好的站点和博客地址，可以拓展阅读。20. REST

2014-11-28 13:37:17 537

转载原创Hadoop基础题库

原本想出至少50题hadoop, HDFS, MapReduce, Zookeeper相关的基础题，现在暂时不进行了，把已经出的20多道题都奉上。暂时没有了出题的动力，可能觉得这东西出成题也没啥意义。总之权当巩固，各位权当消遣着瞧瞧。[java] view plaincopy//Hadoop基础 Doug Cutting所创立的

2014-11-28 13:34:38 1364

转载 Mahout数据承载

推荐数据的处理是大规模的，在集群环境下一次要处理的数据可能是数GB，所以Mahout针对推荐数据进行了优化。Preference在Mahout中，用户的喜好被抽象为一个Preference，包含了userId，itemId和偏好值（user对item的偏好）。Preference是一个接口，它有一个通用的实现是GenericPreference。

2014-11-28 13:32:03 443

Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引

2014-11-27 16:46:13 708

转载基于Mahout的电影推荐系统

源代码下载地址：http://download.csdn.net/detail/huhui_bj/5248056参考资料：http://www.ibm.com/developerworks/cn/java/j-lo-mahout/http://blog.sina.com.cn/s/blog_541086000100qh2j.htmlQQ：667818771 Ma

2014-11-27 16:42:10 1672

转载用Mahout构建职位推荐引擎

2014-11-27 10:29:26 712

原创什么是位、字节、字、KB、MB?

什么是位、字节、字、KB、MB　　位："位(bit)"是电子计算机中最小的数据单位。每一位的状态只能是0或1。　　字节：8个二进制位构成1个"字节(Byte)"，它是存储空间的基本计量单位。1个字节可以储存1个英文字母或者半个汉字，换句话说，1个汉字占据2个字节的存储空间。　　字："字"由若干个字节构成，字的位数叫做字长，不同档次的机器有不同的字长。例如一台8位机，它的1个

2014-11-27 10:21:52 1253

转载 Hive整合HBase——通过Hive读/写 HBase中的表

写在前面一：本文将Hive与HBase整合在一起，使Hive可以读取HBase中的数据，让Hadoop生态系统中最为常用的两大框架互相结合，相得益彰。写在前面二：使用软件说明约定所有软件的存放目录：/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本

2014-11-27 10:20:23 593

转载 solr安装-tomcat+solrCloud构建稳健solr集群

solrCloud的搭建可以有两种方式：使用solr内嵌的jetty来搭建；使用外部web容器tomcat来搭建。对于使用jett来搭建参考solr官方的手册照着做肯定ok，下面我主要讲的是如何使用tomcat来搭建solrCloud。废话不多说，开始我们的工作！1.搭建tomcat单机版solr见我的上一篇博文solr安装-tomcat单机版2.安装配

2014-11-27 08:58:38 542

转载深入剖析SolrCloud（一）

SolrCloud是基于Solr和Zookeeper的分布式搜索方案，是正在开发中的Solr4.0的核心组件之一，它的主要思想是使用Zookeeper作为集群的配置信息中心。它有几个特色功能：1）集中式的配置信息 2）自动容错 3）近实时搜索 4）查询时自动负载均衡基本可以用上面这幅图来概述，这是一个拥有4个Solr节点的集群，索引分布在两个Shard里面，每个Shard包含两个Sol

2014-11-27 08:57:52 569

转载 Pig和数据库的区别

系型数据库以及SQL语言是有很明显区别的。我们逐个讲解。1） Pig Latin是面向数据流的编程方式，而SQL是一种描述型编程语言。我们以前学习SQL的时候经常听到过这样一句话：用SQL，你只需要告诉它你需要什么，具体怎么做交给SQL就行了。而Pig Latin是需要你一步一步根据数据流的处理方式来编程的，也就是说你要设计数据流的每一个步骤，有点类似SQL的查询规划器。2）

2014-11-27 08:57:01 1348

转载 Pig安装及简单实例

前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式。另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序

2014-11-27 08:56:27 516

转载 pig latin 简介

pig位流处理语言，每一步都会产生一个新的数据集或者关系下面的几条语句是合法的A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate UPPER(symbol);但是并不是好的行为1

2014-11-27 08:55:27 996

转载 pig的数据模型

1、标量int 4字节有符号long 8字节有符号float 4字节double 8字节chararray 就是string \t = Tab \n 为结束符bytearray2、组合类型Map : ['name'#'bob', 'age'#55]，顶一个两个key，name和age，name的类型为charara

2014-11-27 08:54:40 807

原创 pig grunt shell详解

输入 pig -x local 此时pig和本地的文件系统交互省略 “-x local”，pig和hdfs交互1、在pig中执行HDFS的命令grunt> fs -ls /Found 5 itemsdrwxr-xr-x - root supergroup 0 2013-01-30 14:32 /datadrwxr-xr-x -

2014-11-27 08:54:01 1566

转载 pig-0.9.2安装和配置

在安装Pig之前，Hadoop环境已经搭建完成，因此这里直接从安装Pig开始。1. 下载Pig安装包Pig-0.9.2下载地址：http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/在以上地址选择pig-0.9.2.tar.gz文件，也就是linux系统的压缩文件，下载到路径：/home/hadoop/下载2.解压Pig安装包

2014-11-27 08:53:14 629

转载 solr增量索引

参考：http://wiki.apache.org/solr/DataImportHandler#Using_delta-import_command修改qiye-data-config.xmldataConfig> dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"

2014-11-26 11:53:16 545

转载 solr4 mysql数据库导入数据

要建立自己的全文检索，一般都需要从数据库导入数据，在原来配置的基础上，增加导入的功能，这里以mysql为例子:1、E:\softwares\green\tomcat6\solr\solr\collection1\conf\solrconfig.xml中增加[html] view plaincopy requestHandler name=

2014-11-26 10:26:54 661

转载 solr4.5 schema.xml配置文件

schema.xml配置文件是用于定义index索引库的结构，有点类似于数据表表的定义。当我们打开schema.xml配置文件时，也许会被里面密密麻麻的代码所吓倒，其实不必惊慌，里面其实就两个东西filed和fieldType。1、field–类似于数据表的字段 .....//省略 _version_" type="long" indexed="true

2014-11-26 10:25:57 623