自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bingdongguke的专栏

搜索,大数据(Hadoop,Mahout,Pig,Hive,Ganglia,Nutch),架构,算法,面试,android

  • 博客(16)
  • 资源 (32)
  • 收藏
  • 关注

转载 hadoop2.2.0 搭建

第一部分 Hadoop 2.2 下载          Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。下载地址:http://apache.claz.org/hadoop/common/hadoop-2.2.0/如下图所示,下载红色标记部分即可。

2013-10-31 22:30:45 1430

原创 Python脚本练习一

批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop#!/usr/bin/pythonimport osimport re#list filesdef listFiles(dirPath):    fileList=[]    for root,dirs,files in os.walk(dirPath):

2013-10-31 22:11:20 2680

原创 hadoop2.2.0 搭建初体验

下载 hadoop-2.2.0.tar.gztar-xzvf hadoop-2.2.0.tar.gzcdhadoop-2.2.0vietc/hadoop/hadoop-env.sh修改:export JAVA_HOME=/usr/local/jdk1.7.0_15vietc/hadoop/slaves修改localhost为hostmasterv

2013-10-31 22:01:37 1030

原创 java读取大文件1G+

正常读取大文件,可能会想到用缓存如:package base;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;

2013-10-30 13:12:05 3250

转载 深入理解hadoop网络

原文地址 http://bradhedlund.com/2011/09/10/understanding-hadoop-clusters-and-the-network/本文侧重于Hadoop集群的体系结构和方法,以及它与网络和服务器基础设施这件的关系。文章的素材主要来自于研究工作以及同现实生活中运行Hadoop集群客户的讨论。如果你也在你的数据中心运行产品级的Hadoop集群,那

2013-10-29 22:35:18 893

原创 Hadoop Namenode 无法启动 总结一

一周之后重新启动虚拟机,打开hadoop准备写点东西,结果jps 只有三个节点启动了TaskTrackersecondNamenodeDataNode然后继续jps,过一会全部节点都死掉捣鼓了半天,没办法只有format,结果数据丢失了,幸亏是学习用的测试环境所以,一般这种情况,不要急于找自己的配置那里出问题了解决问题先找思路,先看看你的网络首先,检查能

2013-10-29 22:09:41 1159

转载 Hadoop MapReduce进阶 使用分布式缓存进行replicated join

概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行j

2013-10-29 19:04:09 778

转载 MapReduce提高效率的几点建议

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。        在医学领域,没有

2013-10-28 20:33:33 3933 1

转载 破解“无法复制粘贴”

如今在电脑的使用中经常碰到无法复制黏贴的问题,给资料的收集带来不少困难。近日,宇宙无意中看到了这篇文文,感觉不错,即转载分享!在此感谢文章作者雨中发呆。文文可能因浏览器版本不同,破解方法可能略有差异。原文地址:http://blog.sina.com.cn/s/blog_0cfdf27c0102e4nk.html。1、将Internet的安全级别设置为“高”①启动IE→点击菜单“工具”

2013-10-19 13:31:15 2300

转载 Hadoop版本选择探讨

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1  Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop

2013-10-19 10:34:21 1507

原创 Eclipse 习惯性快捷键之类的解决总结

我的eclipse 3.7,Ubuntu11.04 32bit 系统自动安装。发觉自动补全功能(alt + /)失效。解决的办法:1、(eclipse)window --> preferences --> General --> keys或者直接在preferences中输入keys,把“word completion”所对应的快捷解(alt + /)去掉(选择需要改变的快捷键行,在bin

2013-10-19 10:17:41 785

转载 hadoop配置、运行错误总结

新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespac

2013-10-16 15:16:35 816

转载 Hive两种模式安装

Hive两种模式安装 数据仓库工具,可以把Hadoop下的原始结构化数据变成Hive中的表。   支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新、索引和事务。   可以看成是从SQL到Map-Reduce的映射器。   提供shell、JDBC/ODBC、thrift、Web等接口。 一、内嵌模式安装   这样安装的元数据保持在内嵌的

2013-10-15 16:48:24 1000

原创 hadoop 运行期间偶发的各种问题积累(简单问题不展示)

HTTP ERROR: 404/jobtracker.jspRequestURI=/jobtracker.jspPowered by Jetty://端口已打开,且没被其它程序占用;jps查看各服务正常运行,且集群运行也没问题,只是不能查看;./hadoop dfsadmin -report 查看集群节点也没问题;解决办法:buid本地库存后

2013-10-14 16:07:14 963

转载 Mahout安装与配置

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf

2013-10-13 23:49:08 1806

转载 mahout之聚类算法——KMeans分析

一,K-Means聚类算法原理        k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。  K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K

2013-10-13 19:02:01 1427

FLV 视频格式分析工具

flv Analyser 格式分析工具,流媒体直播flv rtmp 格式分析 Windows 工具,打开flv格式流媒体文件自动分析文件格式。 直播开发分析文件利器。

2020-11-09

Flutter插件_资料_flutter_plugin.zip

Flutter插件 编写跨平台android和ios。可以拿来作为demo或者自己编写插件业务更改用

2019-07-11

Terrain Assets.unitypackage(Unity3d官方资源包)

Terrain Assets.unitypackage(Unity3d官方资源包)5.0 以上不在自带。需要下载。放到Standard里面导入就好。

2017-08-31

Mahout 学习

Mahout In Action 英文版。适合学习机器语言。对于提高英文书籍阅读能力也有提高,apache top level项目。算法集的一个框架或者也可以说平台。Mahout hadoop 可结合使用

2013-10-11

mmseg4j-all-1.8.5-with-dic

lucene中文分词工具包,自己用ant编译成功的。可以进行定制的分词器,同义词开发。作为工具包使用。官网没有提供,组要自己编译,方便用传上来

2013-08-12

超有用的android第三方地图

超有用的android第三方地图,支持离线地图,精准街道定位,乘车路线图。 提供了各种接口

2012-11-27

可以进行缩放的相册效果

可以进行缩放的相册,添加了html技术的实现。和Android webview与imageView技巧。附加css装饰,比较漂亮的一款可缩放相册

2012-06-06

Android 用HTML5做的漂亮相册

超漂亮的相册例子。里面带有九宫格的九个相片。并且用CSS3+HTML5的标签嵌入到Android的程序,例子程序值得借鉴

2012-06-06

Android 超实用的开关特效

自定义开关,类似小米4.0.x上面的开关效果,如飞行模式开关。USB开关。里面包含了动画的效果代码,监听器的高级使用代码。以及自定义组件的状态判断。类似mars的mp3里面的一部分判断。

2012-05-24

看源码工具C++,JAVA,.NET,C 大多数常用语言都行

看源码工具C++,JAVA,.NET,C 大多数常用语言都行。喜欢看源码框架,和对框架,系统有深入研究,想深入研究的都能派上用场。还可以看linux内核源码,不错的一款源码查看工具

2011-12-23

CygWin安装包

Cygwin安装包,在windows上模拟linux操作系统 不用安装linux学习,在windows上也可以像linux一样用linux系统 操作与学习

2011-12-21

Ocm 实验与考试大全

Ocm 实验与考试大全,ocm考试,ocm题库,ocm实验,非常权威,非常实用。 Ocm实验与题库大全(内部资料)

2011-09-22

Jsoup 1.5.2 和jsoup 1.6

Jsoup 1.5.2 和jsoup 1.6 开发包jar包,开发文档,源码包

2011-07-20

json-taglib 使用方法

json-taglib 使用方法,json:object json:Array json:Property

2011-07-18

json-taglib.jar

json-taglib.jar json-taglib.jar json-taglib.jar json-taglib.jar json-taglib.jar

2011-07-18

后台读取json串,json文件,包含所有需求的jar包

json,json文件,commons-beanutils.jar,commons-collections.jar,commons-lang.jar,ezmorph-1.0.4.jar,json-lib-2.2.3-jdk15.jar 读取其中的内容可以传给前台用,并写好了测试类,可运行的

2011-06-21

抓包下载,sniffer,酷六和搜狐的音视频下载

抓包下载,sniffer,酷六和搜狐的音视频下载,里面有说明文档,针对酷六和搜狐,但是必须安装wincap抓包工具,必须在命令行输入ku6或sohu

2011-06-08

音频分割器,java带界面音频分割器修改后可以当后台程序用

音频分割器也适用于视频,通过流的方式进行指定时间段的分割,带界面,可以通过稍微的改动改成后台程序用

2011-05-28

最新lucene教程

1、analysis对需要建立索引的文本进行分词、过滤等操作 2、standard是标准分析器 3、document提供对Document和Field的各种操作的支持。 4、index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5、queryParser提供检索时的分析支持 6、search负责检索 7、store提供对索引存储的支持 8、util提供一些常用工具类和常量类的支持 Ø Lucene中的类主要组成如下: 1)org.apache.1ucene.analysis语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。 2)org.apache.1uceene.document索引存储时的文档结构管理,类似于关系型数据库的表结构。 3)document包相对而言比较简单,该包下面有3个类,document相对于关系型数据库的记录对象,Field主要负责字段的管理。 4)org.apache.1ucene.index索引管理,包括索引建立、删除等。索引包是整个系统核心,全文检索的根本就是为每个切出来的词建索引,查询时就只需要遍历索引,而不需要去正文中遍历,从而极大的提高检索效率。 5)org.apache.1ucene.queryParser查询分析器,实现查询关键词间的运算,如与、或、非等。 6)org.apache.1ucene.search检索管理,根据查询条件,检索得到结果。 7)org.apache.1ucene.store数据存储管理,主要包括一些底层的I/0操作。 8)org.apache.1ucene.util一些公用类。

2010-08-29

Power Designer 破解

PowerDesigner12 破解,将压缩包解压将里面的.dll文件拷贝到安装目录下替换原有的文件,并且打开PD,将licence.lic文件导入即可,要选择PRC

2010-06-14

javaee.jar文件

javaee.jar ejb中开发java EE的必备包如开发servelet中使用servlet-api.jar包一样)

2010-04-02

基于J2EE的Ajax宝典(完美PDF版)

基于J2EE的Ajax宝典(完美PDF版),李刚编写的也是一本不错的书

2010-03-17

疯狂java讲义pdf版的

疯狂java讲义pdf版的,李刚的书还不错

2010-03-17

极限编程编程新理念,先测试后写代码

极限编程编程新理念,先测试后写代码,国外提出的新理念,先写好测试在编程

2009-12-09

mysql-connector-java-5.0.8 jdbc连接

mysql的连接比较新的,如果有找不到的可以在这里下载

2009-11-15

flex学习礼包免积分

Flex学习大礼包(flex基础教程、flex和java整合)--下载不扣分,童...

2009-11-12

java面试题适合找工作或者学习的人

有关Java和jsp的面试资料非常全面,希望大家共同享用共同进步,如果下不了的请与我联系[email protected]

2009-11-10

JAVA程序员面试宝典

对于java毕业者来说这本书是再好不过了,对于你的面试问题解决的相当透彻。感谢你的使用,和阅读。

2009-05-13

关于acm竞赛java

acm的用Java语言编写的,ppt,是.pdf格式的,要用阅读器才可以打开

2009-04-11

java _API_6(中文版)

java Api6 中文的完全能够看懂,介绍比较全面。学习java必备资源

2009-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除