![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 60
邹中凡
这个作者很懒,什么都没留下…
展开
-
Mysql常用
1,Mysql 安装yum install mysql mysql-server mysql-devel -yyum install mysql-connector-java2,启动service mysqld start3,修改root密码mysql -u rootuse mysql;update user set password = passwor原创 2017-05-17 15:26:30 · 654 阅读 · 0 评论 -
一文读懂机器学习,大数据/自然语言处理/算法全有了
转载至:http://www.cnblogs.com/subconscious/p/4107357.html在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。转载 2015-03-16 14:28:58 · 1398 阅读 · 2 评论 -
Sqoop全量和增量导入数据到Oracle数据库
1,全量导入 示例: –全量导入 sqoop import –connect jdbc:oracle:thin:@10.51.103.29:1521:DW –username FMIS9999 –password=FMIS9999 –table T_EMP –num-mappers 10 –hive-import –hive-database GRC_BIGDATA –hive-table原创 2015-11-13 11:54:03 · 5898 阅读 · 0 评论 -
Hive数据备份和恢复
本文说明如何通过把Hive中的数据备份到磁盘中,并从磁盘中恢复到Hive中。1,把Hive中的表数据备份到磁盘中。 备份示例:use GRC_BIGDATA;insert overwrite local directory '/root/grc_bigdata/backup/src_companyinfo' ROW FORMAT DELIMITED FIELDS TERMINATED BY '|原创 2015-11-13 11:46:17 · 12555 阅读 · 0 评论 -
Impala之概念及架构
Impala服务器是一个分布式,大规模并行处理(MPP)数据库引擎。它包括运行在CDH集群主机上的不同后台进程。Impala DaemonImpala Daemon进程是运行在集群每个节点上的守护进程,是Impala的核心组件之一。每个节点上这个进程名称为impalad。impalad 负责读写数据文件,接受来自impala-shell、Hue、JDBC或者ODBC的查询请求,与集原创 2015-09-22 10:45:12 · 4994 阅读 · 0 评论 -
Cloudera Manager5常见问题汇总
1,在Cloudera Manager5中安装CDH时报如下错: 查看旁边的“详细信息”链接,可以发现在“正在启动 Cloudera Manager Agent…”环节有如下错误:>>IOError: [Errno 13] Permission denied: '/var/log/cloudera-scm-agent/cloudera-scm-agent.log' >>error: [Errno原创 2015-11-13 09:45:35 · 15957 阅读 · 1 评论 -
Cloudera Manager5问题之NTP问题
按照Cloudera 的官方建议,所有的CDH节点和Cloudea Manager节点都需要启动ntpd服务。要不然会报如下错误: 1)此角色的主机的运行状况为不良。 以下运行状况测试不良: 时钟偏差. 2)The host’s NTP service is not synchronized to any remote server.解决方法如下: 先配置一台NTP服务,然后所有的CDH节点都原创 2015-07-01 14:49:33 · 19943 阅读 · 0 评论 -
Nutch2.3中的crawl和Nutch命令初探
一,环境信息 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Nutch:Nutch2.3,安装路径:/root/nutch/apache-nutch-2.3 Hbase:Hbase0.94.14,安装路径:/root/hadoop/hbase-0.94.14 Solr:solr-4.原创 2015-03-10 17:26:06 · 5684 阅读 · 0 评论 -
Solr5.0配置中文分词包
Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-5.0.0.jar包复制到solr的启动目录的lib目录下。#原创 2015-03-06 11:21:28 · 4760 阅读 · 1 评论 -
Solr5.0快速入门
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root 安装系统要求:需要先安装JDK7或者以上版本,推荐JDK7U55或者以后版本。二,安装JDK7 安装JDK7U55或者以上版本。这里安装JDK1.7.0_75。 下载地址:http://www.oracle.com/technetwor原创 2015-03-05 16:42:17 · 3982 阅读 · 0 评论 -
Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装
Nutch起源于ApacheLucene项目,是一个可扩展和可伸缩的开源网络爬虫软件项目,包括两个版本的代码库,即: 1,Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。 2,Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,原创 2015-03-10 14:11:11 · 4993 阅读 · 2 评论 -
Solr5.0学习笔记1
在看本文章之前,可以先浏览Solr5.0快速入门1,启动单机版的Solr 进入Solr5.0安装目录,执行:[root@datanode-4 solr-5.0.0]# ./bin/solr startWaiting to see Solr listening on port 8983 [|] Started Solr server on port 8983 (pid=46859). Happ原创 2015-03-06 10:03:49 · 2103 阅读 · 0 评论 -
CDH5.3.2中配置运行Spark SQL的Thrift Server
一,环境信息 CDH集群,Cloudera Manager5安装部署CDH5.X详细请见:http://blog.csdn.net/freedomboy319/article/details/44804721二,在CDH5.3.2中配置运行Spark SQL的Thrift Server 1,root用户登录CDH5.3.2集群中的某一个节点2,cd /opt/cloudera/parcels/C原创 2015-06-02 16:45:42 · 10571 阅读 · 3 评论 -
Spark1.2+Hadoop2.6伪分布式安装
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Hadoop:Hadoop2.6,Hadoop2.6的单机安装请见:http://blog.csdn.net/freedomboy319/article/details/43953731 Hive:Hive0.13,Hive0原创 2015-02-27 10:06:01 · 1857 阅读 · 0 评论 -
Hadoop2.6伪分布式安装
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root二,安装JDK 安装JDK1.6或者以上版本。这里安装jdk1.6.0_45。 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 1,下载jd原创 2015-02-26 17:18:22 · 2679 阅读 · 0 评论 -
Hive常见问题汇总
这里小编汇集,使用Hive时遇到的常见问题。 1,执行#hive命令进入Hive CLI时报如下错误:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHi原创 2015-04-02 09:58:49 · 51732 阅读 · 0 评论 -
Cloudera Manager5之安装部署CDH5.X
本文章结束安装Cloudera Manager,并部署CDH5.X。主要分如下章节介绍。1,安装准备 2,安装Clouder Manager 3,部署CDH5.X 1,安装准备 1.1 安装物理部署图 物理机硬件信息 2台HP ProLiant DL388 Gen9服务器。每台服务器的配置信息如下: - 服务器型号:HP ProLiant DL388 Gen9 - CPU原创 2015-04-01 11:41:59 · 8495 阅读 · 0 评论 -
Cloudera Manager5配置管理之安装Spark的Standalone
此文章介绍Cloudera Manager安装Spark的Standalone模式 1,环境信息 2,安装Spark的Standalone1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,安装Spark的Standalone模式 2.1 在Cloudera Manager中,点击“添加服务”。 2.2,添加服务向导-选择您要添加的服务类型。选原创 2015-06-04 11:11:24 · 6478 阅读 · 1 评论 -
Cloudera Manager5配置管理之配置Namenode 的HA
此文章介绍Cloudera Manager配置Hive Metastore 1,环境信息 2,配置Namenode 的HA1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,配置Namenode 的HA 2.1,进入HDFS界面,点击“启用High Availability” 2.2,输入NameService名称,这里设置为:nameserv原创 2015-06-04 10:52:05 · 11734 阅读 · 0 评论 -
开源大数据查询分析引擎现状
注:此文章转载至http://www.36dsj.com/archives/30017原文如下:引言大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigt转载 2015-07-13 14:56:33 · 1124 阅读 · 0 评论 -
Hadoop常见错误之HDFS
下面小编整理在工作中遇到的问题,以及解决方法。 1,Datanode启动失败错误 现象 在启动Datanode时,/var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-cdh-node12.grc.log.out日志文件中有如下错误:Caught exception while scanning /data/dfs/dn/current. Will thr原创 2015-08-13 14:26:48 · 12227 阅读 · 1 评论 -
Hive0.13+Mysql5.6.23单机安装
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Hadoop:Hadoop2.6二,安装Mysql 1,到http://dev.mysql.com/downloads/repo/yum/ 下载mysql-community-release-el6-5.noarch.rpm原创 2015-02-26 17:54:33 · 1268 阅读 · 0 评论 -
ClouderaManager修改集群的IP
方法的主要思想是:由于cloudera-manager在安装的时候,会配置相应的数据库,该数据库是用来存储集群的所有的配置信息。 cloudera-mamanger每次启动的时候,都会从数据库中读取这些配置信息,因此想修改主机的ip,只需要修改存在数据库中的主机的ip即可。 具体方法 (1)首先在安装cloudera-manager的主机上,停止所有的cloudera管理进程 servi原创 2016-08-15 22:44:10 · 1851 阅读 · 0 评论 -
Hbase入门
一,安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root 需要安装JDK1.6或者以上版本。 这里安装的JDK为jdk1.7.0_75,并配置好了环境变量。二,安装Hbase 1,到http://archive.apache.org/dist/hbase/ 下载对应版本的Hbase。这原创 2015-03-12 08:36:57 · 1440 阅读 · 0 评论