自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

每天积累一点,一年后你会发现,自己变化很大

静下心来,一步一步,学习开源项目。

  • 博客(153)
  • 资源 (28)
  • 收藏
  • 关注

转载 Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右。   Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce任务,第三代就是Spark倡导的流Streaming。   Spark兼容Hadoop的APi,能够读写Hadoop的HDFS HB

2014-11-30 16:59:08 726

转载 两款高性能并行计算引擎Storm和Spark比较

对Spark、Storm以及Spark Streaming引擎的简明扼要、深入浅出的比较,原文发表于踏得网。Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(

2014-11-30 16:51:24 682

转载 spark应用场景

问题 1  Spark怎么会那么快 2 Spark的适用场景。苦苦搜索,总得结果。spark是对MapReduce计算模型的改进,可以说没有HDFS,MapReduce,就没有spark.尽管spark官网很少提到MapReduce.Spark可用于迭代,主要思想是内存计算,即将数据存到内存中,以提高迭代效率。(我认为就是通过缓存数据的方式减少IO的消耗,从而提高了性能)Spark

2014-11-30 16:50:41 1928

转载 Spark在Yarn上运行Wordcount程序

过往记忆专注于Hadoop、Spark、Hive、Flume、Hbase,QQ交流群:138615359首页HadoopSparkHiveHbaseFlume面试题面试题数据结构算法Linux网络编程Guavahadoop文档常用工具二维码生成Json格式化工具常用Linux

2014-11-30 16:24:53 1131

转载 在eclipse中部署spark源代码

参考:http://cn.soulmachine.me/blog/20130611/http://scala-ide.org/download/current.html1.安装scala2.安装sbt3.安装Scala IDE   http://scala-ide.org/download/current.html (要注意eclipse和Scala IDE的版本匹

2014-11-30 16:11:02 885

转载 安装spark standalone mode

参考:http://spark.incubator.apache.org/docs/latest/http://spark.incubator.apache.org/docs/latest/spark-standalone.htmlhttp://www.yanjiuyanjiu.com/blog/20130617/1.安装JDK2.安装scala 2.9.3Spark 0.

2014-11-30 16:10:03 578

转载 spark从hdfs上读取文件运行wordcount

1.配置环境说明hadoop配置节点:sg202(namenode SecondaryNameNode)  sg206(datanode) sg207(datanode) sg208(datanode)spark配置节点:sg201(Master)  sg211(Worker)2.从hdfs上读取文件并运行wordcounta. 登录hadoop的主节点sg202 将要进行word

2014-11-30 16:09:37 1489

转载 (转)MapReduce Design Patterns(chapter 1)(一)

翻译的是这本书:Chapter 1.Design Patterns and MapReduceMapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大,但它没有提供一个处理所谓“big data”的通用,普遍的情形,所以它能很好的解决一些问题,在处理某些问题上也存在挑战。这本书教给你在什么问题

2014-11-30 11:55:55 708

转载 基于物品的协同过滤ItemCF的mapreduce实现

基于物品的协同过滤ItemCF数据集字段:1.  User_id: 用户ID2.  Item_id: 物品ID3.  preference:用户对该物品的评分算法的思想:1.  建立物品的同现矩阵A,即统计两两物品同时出现的次数数据格式:Item_id1:Item_id2        次数2.  建立用户对物品的评分矩阵B,即每一个用户对某一物品的评分数据

2014-11-30 11:52:18 917

转载 maven 项目转 eclipse

现在很多开源项目都使用maven来管理.我喜欢用eclipse来查看源代码:在网上查找转换方法:下个maven.配置一下环境. 0. 为eclipse添加Maven2和MyEclipse插件 1. 将Maven项目转为Eclipse项目,具体操作为将dos命令窗口切换到Maven项目的目录下,输入命令: mvn eclipse:eclipse 2. 进入ec

2014-11-29 18:27:46 571

转载 Apache Storm技术实战之1 -- WordCountTopology

“源码走读系列”从代码层面分析了storm的具体实现,接下来通过具体的实例来说明storm的使用。因为目前storm已经正式迁移到Apache,文章系列也由twitter storm转为apache storm.WordCountTopology 使用storm来统计文件中的每个单词的出现次数。通过该例子来说明tuple发送时的几个要素source component

2014-11-29 15:03:07 1589

转载 hadoop面试题总结

目前也面试了几家公司hadoop工程师的职位,总结一下面试题,以供参考。一、Hadoop基础:1、  hadoop读写文件的过程?2、  hadoop集群可以从哪几个方面优化?块的大小怎么设置?槽位怎么设置?3、  mapreduce程序的执行过程是怎么样的?4、  mapreduce程序中join和group by是怎么实现的?5、  Hive

2014-11-29 15:00:01 843

转载 在eclipse中调试storm-starter程序

1)下载twitter4j :twitter4j-2.2.6.zip(http://pan.baidu.com/s/1bzSO3),并解压unzip twitter4j-2.2.6.zip   下载storm-starter-master.zip(git clone git://github.com/nathanmarz/storm-starter.git) 2)使用e

2014-11-29 14:59:02 2664

转载 安装Storm客户端

Storm客户端能让我们使用命令管理集群中的拓扑。按照以下步骤安装Storm客户端:从Storm站点下载最新的稳定版本(https://github.com/nathanmarz/storm/downloads)当前最新版本是storm-0.8.1。(译者注:原文是storm-0.6.2,不过翻译的时候已经是storm-0.8.1了)把下载的文件解压缩到/usr/local/bin/sto

2014-11-29 14:55:40 1336

转载 Storm集群安装部署步骤【详细版】

作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实

2014-11-29 14:50:02 703

转载 storm问题总结

最近有朋友给我邮件问一些storm的问题,集中解答在这里。一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入storm做计算?你需要实现一个Spout,Spout负责将数据emit到storm系统里,交给bolts计算。怎么实现spout可以参考官方的kestrel spout实现:https://github.com/nathanmarz/storm-kestrel

2014-11-29 14:47:34 1561

原创 storm-0.9.3 wordcount例子运行步骤(单机版)

网上关于Storm wordcount的例子很多,不过都是基于storm-0.9.0.1,在运行例子过程中torm 0.9.0.1.jar在maven中央仓库没有找到只有0.9.3,在运行过程中出现了好多问题。所以记下笔记。方便以后查看。1, 下载Storm,地址为http://www.apache.org/dyn/closer.cgi/storm/apache-storm-0.9.3/ap

2014-11-29 14:42:50 2971

转载 使用 Twitter Storm 处理实时的大数据

流式处理大数据简介Storm 是一个开源的、大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关。了解 Twitter Storm、它的架构,以及批处理和流式处理解决方案的发展形势。0 评论:M. Tim Jones, 独立作家, 顾问2012 年 12 月 05 日内容

2014-11-28 16:46:33 782

转载 storm 简介及单机版安装指南

本文翻译自: https://github.com/nathanmarz/storm/wiki/TutorialStorm是一个分布式的、高容错的实时计算系统。Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语,使我们对数据进行批处理变的非常的简单和优美。同样,Storm也对数据的实时计算提供了简单Spout和Bolt原语

2014-11-28 16:46:05 746

转载 Mahout推荐算法API详解

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风

2014-11-28 13:43:50 745

转载 IP地址数据库 二分查找

利用二分逼近法(bisection method) ,解析800多万IP 只需几十秒, 比较高效!原来的顺序查找算法 效率比较低 readonly string ipBinaryFilePath = "qqzengipdb.dat"; readonly byte[] dataBuffer, indexBuffer; readonly

2014-11-28 13:41:04 807

转载 优质博文list(分布式文件系统/存储/搜索)

转载请注明出处:http://blog.csdn.net/zbf8441372把一些好的,有用的博文搜集在这里,陆续更新,主题大都是涉及到分布式系统,文件和存储之类,还有云计算,包括一些强大的,热门的open-source,包括NoSQL生态系统,Hadoop家族,lucene全文搜索工具,一些Apache项目等等。另外一些比较好的站点和博客地址,可以拓展阅读。20. REST

2014-11-28 13:37:17 537

转载 原创Hadoop基础题库

原本想出至少50题hadoop, HDFS, MapReduce, Zookeeper相关的基础题,现在暂时不进行了,把已经出的20多道题都奉上。暂时没有了出题的动力,可能觉得这东西出成题也没啥意义。总之权当巩固,各位权当消遣着瞧瞧。[java] view plaincopy//Hadoop基础  Doug Cutting所创立的

2014-11-28 13:34:38 1364

转载 Mahout数据承载

推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。Preference在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好)。Preference是一个接口,它有一个通用的实现是GenericPreference。

2014-11-28 13:32:03 443

转载 基于 Apache Mahout 构建社会化推荐引擎

Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引

2014-11-27 16:46:13 708

转载 基于Mahout的电影推荐系统

源代码下载地址:http://download.csdn.net/detail/huhui_bj/5248056参考资料:http://www.ibm.com/developerworks/cn/java/j-lo-mahout/http://blog.sina.com.cn/s/blog_541086000100qh2j.htmlQQ:667818771 Ma

2014-11-27 16:42:10 1672

转载 用Mahout构建职位推荐引擎

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风

2014-11-27 10:29:26 712

原创 什么是位、字节、字、KB、MB?

什么是位、字节、字、KB、MB  位:"位(bit)"是电子计算机中最小的数据单位。每一位的状态只能是0或1。  字节:8个二进制位构成1个"字节(Byte)",它是存储空间的基本计量单位。1个字节可以储存1个英文字母或者半个汉字,换句话说,1个汉字占据2个字节的存储空间。  字:"字"由若干个字节构成,字的位数叫做字长,不同档次的机器有不同的字长。例如一台8位机,它的1个

2014-11-27 10:21:52 1253

转载 Hive整合HBase——通过Hive读/写 HBase中的表

写在前面一:本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。写在前面二:使用软件说明约定所有软件的存放目录:/home/yujianxin一、Hive整合HBase原理Hive与HBase整合的实现是利用两者本

2014-11-27 10:20:23 593

转载 solr安装-tomcat+solrCloud构建稳健solr集群

solrCloud的搭建可以有两种方式:使用solr内嵌的jetty来搭建;使用外部web容器tomcat来搭建。对于使用jett来搭建参考solr官方的手册照着做肯定ok,下面我主要讲的是如何使用tomcat来搭建solrCloud。废话不多说,开始我们的工作!1.搭建tomcat单机版solr见我的上一篇博文solr安装-tomcat单机版2.安装配

2014-11-27 08:58:38 542

转载 深入剖析SolrCloud(一)

SolrCloud是基于Solr和Zookeeper的分布式搜索方案,是正在开发中的Solr4.0的核心组件之一,它的主要思想是使用Zookeeper作为集群的配置信息中心。它有几个特色功能:1)集中式的配置信息 2)自动容错 3)近实时搜索 4)查询时自动负载均衡  基本可以用上面这幅图来概述,这是一个拥有4个Solr节点的集群,索引分布在两个Shard里面,每个Shard包含两个Sol

2014-11-27 08:57:52 569

转载 Pig和数据库的区别

系型数据库以及SQL语言是有很明显区别的。我们逐个讲解。1)  Pig Latin是面向数据流的编程方式,而SQL是一种描述型编程语言。我们以前学习SQL的时候经常听到过这样一句话:用SQL,你只需要告诉它你需要什么,具体怎么做交给SQL就行了。而Pig Latin是需要你一步一步根据数据流的处理方式来编程的,也就是说你要设计数据流的每一个步骤,有点类似SQL的查询规划器。2) 

2014-11-27 08:57:01 1348

转载 Pig安装及简单实例

前面讲到了如何用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序

2014-11-27 08:56:27 516

转载 pig latin 简介

pig位流处理语言,每一步都会产生一个新的数据集或者关系下面的几条语句是合法的A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate UPPER(symbol);但是并不是好的行为1

2014-11-27 08:55:27 996

转载 pig的数据模型

1、标量int  4字节 有符号long  8字节 有符号float 4字节double  8字节chararray   就是string  \t = Tab   \n 为结束符bytearray2、组合类型Map : ['name'#'bob', 'age'#55],顶一个两个key,name和age,name的类型为charara

2014-11-27 08:54:40 807

原创 pig grunt shell详解

输入  pig -x local   此时pig和本地的文件系统交互省略  “-x local”,pig和hdfs交互1、在pig中执行HDFS的命令grunt> fs -ls /Found 5 itemsdrwxr-xr-x   - root supergroup          0 2013-01-30 14:32 /datadrwxr-xr-x   -

2014-11-27 08:54:01 1566

转载 pig-0.9.2安装和配置

在安装Pig之前,Hadoop环境已经搭建完成,因此这里直接从安装Pig开始。1. 下载Pig安装包Pig-0.9.2下载地址:http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/在以上地址选择pig-0.9.2.tar.gz文件,也就是linux系统的压缩文件,下载到路径:/home/hadoop/下载2.解压Pig安装包

2014-11-27 08:53:14 629

转载 solr增量索引

参考:http://wiki.apache.org/solr/DataImportHandler#Using_delta-import_command修改qiye-data-config.xmldataConfig> dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"

2014-11-26 11:53:16 545

转载 solr4 mysql数据库导入数据

要建立自己的全文检索,一般都需要从数据库导入数据,在原来配置的基础上,增加导入的功能,这里以mysql为例子:1、E:\softwares\green\tomcat6\solr\solr\collection1\conf\solrconfig.xml中增加[html] view plaincopy requestHandler name=

2014-11-26 10:26:54 661

转载 solr4.5 schema.xml配置文件

schema.xml配置文件是用于定义index索引库的结构,有点类似于数据表表的定义。当我们打开schema.xml配置文件时,也许会被里面密密麻麻的代码所吓倒,其实不必惊慌,里面其实就两个东西filed和fieldType。1、field–类似于数据表的字段         .....//省略  _version_" type="long" indexed="true

2014-11-26 10:25:57 623

数据模型资源手册.卷2

希尔瓦斯顿 中文

2021-09-15

gb2312.txt

20200814收录了GB2312汉字最新版汉字,纯文本方便使用

2020-08-14

flvtool2 视频格式转换

flvtool2 flv视频格式转换 添加keyframe信息

2014-10-10

jwplayer 网页播放器 安装脚本文件

jw player 网页播放器 安装脚本文件(官方)

2014-10-10

mahout 入门例子

mahout入门 下载即可运行 适合新手入门

2014-08-18

spring ioc以及事物架构图

spring ioc以及事物架构图

2014-01-14

UML 常用图列 应用场景 区别

UML 常用图列 应用场景 区别 实际例子

2014-01-04

UML设计的9种图例 区别 应用场景

UML设计的9种图例 区别 应用场景 实际例子

2014-01-04

netty原理及例子

原理及例子,适合入门阶段学习以及提高,简单明了的例子,使你更快掌握

2011-04-23

淘宝netty例子以及原理

netty例子以及原理,以及在淘宝中应用

2011-04-23

struts2.0中文帮助手册.chm

\struts2.0中文帮助手册.chm \struts2.0中文帮助手册.chm \struts2.0中文帮助手册.chm \struts2.0中文帮助手册.chm

2010-03-01

spring2.0开发指南中文

spring2.0开发指南中文 spring2.0开发指南中文 spring2.0开发指南中文

2010-03-01

struts2不错的电子书

struts2不错的电子书 struts2不错的电子书 struts2不错的电子书

2010-03-01

Struts,Spring,Hibernate优缺点_fly.mht

Struts,Spring,Hibernate优缺点_fly.mht

2010-03-01

拿出IT人的风采—IT面试试题.doc

D:\红江\ZHJ\面试资料\Java面试 D:\红江\ZHJ\面试资料\Java面试 D:\红江\ZHJ\面试资料\Java面试

2010-03-01

oracle 入门知识 解压密码忘了

oracle 入门知识 解压密码忘了 oracle 入门知识 解压密码忘了

2010-03-01

j2ee 面试 框架

j2ee 面试 框架 j2ee 面试 框架 j2ee 面试 框架

2010-03-01

JAVA面试试题集(推荐).doc

JAVA面试试题集(推荐).doc JAVA面试试题集(推荐).doc

2010-03-01

java 面试基础 j2ee

java 面试基础 j2ee java 面试基础 j2ee java 面试基础 j2ee

2010-03-01

java 面试基础 java 面试基础

java 面试基础 java 面试基础 java 面试基础 java 面试基础

2010-03-01

java 面试提升 java 面试提升

java 面试提升 java 面试提升 java 面试提升 java 面试提升

2010-03-01

面试题 JAVA 面试题 JAVA

面试题 JAVA 面试题 JAVA 面试题 JAVA 面试题 JAVA

2010-03-01

oracle ppt(英文)

oracle 文摘 感觉 还可以 oracle 文摘 感觉 还可以 oracle 文摘 感觉 还可以

2010-03-01

Python 标准类库

Python 标准类库 PythonStandardLib

2009-12-26

jivejdon3源码

jdon jive 开源项目 不错的项目

2009-08-18

优秀的LINUX教程

优秀的LINUX教程,覆盖面广,比较适合广大爱好者

2009-03-13

struts2原代码

struts2原代码,整合了webwork与struts1.x,功能更强大,优秀的设计

2009-02-27

spring2.5开发手册

spring2.5开发手册,最新版本,功能更强大 spring2.5开发手册,最新版本,功能更强大

2009-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除