- 博客(15)
- 资源 (2)
- 收藏
- 关注
原创 Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装
Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装1、下载hive-0.10.0 网址是:http://archive.apache.org/dist/hive/hive-0.10.0/ 下载的安装包为:hive-0.10.0.tar.gz 2012-12-18 23:21 35M 2、把hive-0.10.0拷进 /usr/ 目录下,并进行解
2014-09-27 14:26:21 1104
转载 ACM算法相关资料
ACM算法相关资料一:知识点数据结构:1,单,双链表及循环链表2,树的表示与存储,二叉树(概念,遍历)二叉树的 应用(二叉排序树,判定树,博弈树,解答树等)3,文件操作(从文本文件中读入数据并输出到文本文 件中)4,图(基本概念,存储结构,图的运算)数学知识1,离散数学知识的应用(如排列组合、简单的图论,数理逻辑)2,数论知识3,线性代数4,组合
2014-09-26 18:27:05 1990 1
原创 hadoop一代集群运行代码案例
hadoop一代集群运行代码案例一、 启动hadoop 进入hadoop的bin目录二、建立数据文件,并上传至hdfs 1、 在文件目录为 /home/hadoop 下建立文件夹 file,并在file里面建立文件hadoop_02cd /home/hadoopmkdir file cd file2、写入数据:数
2014-09-25 19:49:27 1317
原创 Hive简介
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive可以在HDFS上构建数据仓
2014-09-24 20:38:40 1409
原创 Nutch1.2 的安装与使用
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/ 2、nutch1.2目录 bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:Nutch的所有源文件;webapps
2014-09-19 19:06:56 3695
原创 nutch从搜索引擎到网络爬虫
人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting 的评价:“他开发出卓越超群的全文检索引擎工具包(Lucene/Solr
2014-09-19 19:01:51 4688
转载 nutch相关目录说明
Nutch数据包含3个目录结构,分别是:1、Crawldb:用于存储Nutch将要检索的url信息,以及检索状态(是否检索、何时检索)2、Linkdb:用于存储每一个url所包含的超链接信息(包括锚点)3、Segments:一组url的集合,他们作为一个检索单元,可用于分布式检索Segment目录包含以下子目录信息:(1) crawl_generate:
2014-09-13 21:00:23 791
原创 Ubuntu12搭建nutch1.2+tomcat7+jdk1.6
Ubuntu12搭建nutch1.2+tomcat7+jdk1.6所用软件:jdk-6u24-linux-i586.binapache-tomcat-7.0.27.tar.gzapache-nutch-1.2-bin.tar.gz (注:我的文档很多复制cp指令是在root权限下进行,所以修改权限。如果在ubuntu一般用户权限下进行复制指令,则不用修改权限)一、安装jdk
2014-09-11 16:05:34 2846 3
转载 在hadoop启动的时候,会出现各种各样的问题
在hadoop启动的时候,会出现各种各样的问题,NameNode,JobTracker等各个模块都会有莫名奇妙的问题出现,在这里对hdfs的问题进行一下简单的记录1:HDFS initialized but not 'healthy' yet, waiting...这个日志会在启动hadoop的时候在JobTracker的log日志文件中出现,在这里就是hdfs出现问题,导致DataNod
2014-09-08 13:59:28 1713
原创 Can't find (or read) directory to add to classloader: ../../../contrib/extraction/lib (resolved as:
问题:Can't find (or read) directory to add to classloader: ../../../contrib/extraction/lib (resolved as: /home/solr_home/collection1/../../../contrib/extraction/lib
2014-09-06 19:59:20 3952 1
原创 /usr/tomcat/work/Catalina/localhost/_ is unusable.
启动tomcat出现问题 /usr/tomcat/work/Catalina/localhost/_ is unusable. 解决方法: 把tomcat 下的 work
2014-09-06 12:35:55 3366
原创 如果datanode连接不上namenode,导致datanode无法启动。
问题: ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host
2014-09-05 22:19:33 1467
转载 ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/current
ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/currentERROR namenode.NameNode: java.io.IOException: Cannot remove current directory: /usr/local/hadoop/hd
2014-09-05 16:11:37 7108
原创 Could not find necessary SLF4j logging jars.if using Jetty,the SLF4J logging 解决方法
Could not find necessary SLF4j logging jars.if using Jetty,the SLF4J logging jars need to go in the jetty lib/ext
2014-09-02 14:21:28 2061
转载 出现java.lang.UnsupportedClassVersionError 错误的原因
出现java.lang.UnsupportedClassVersionError错误的原因 出现java.lang.UnsupportedClassVersionError错误的原因,是因为我们使用高版本的JDK编译的Java class文件试图在较低版本的JVM上运行,所报的错误。因为,高版本的JDK生成的class文件使用的格式,可能与低版本的JDK的.class文件
2014-09-01 21:28:08 794
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人