- 博客(324)
- 资源 (17)
- 收藏
- 关注
转载 CDH报错:Traceback (most recent call last): File "<string>", line 1, in <module> File "<string>"
Detecting Cloudera Manager Server...Detecting Cloudera Manager Server...BEGIN host -t PTR 192.168.1.198198.1.168.192.in-addr.arpa domain name pointer localhost.END (0)using localhost as scm
2015-06-12 08:17:57 70430 1
转载 如何成为真正的数据架构师
本PPT来自韩国EN-CORE高级技术顾问、EN-CORE中国分公司恩核(北京)信息技术有限公司总经理郑保卫博士。文章末尾附下载。下面是内容概要:1、为什么需要构建数据结构?1)数据标准不一致2)数据模型管理混乱3)深入的性能的问题无法解决4)SQL语句编写水平不高导致出现严重性能问题5)开发人员对执行计划收悉6)上线前缺乏审计7)相对复杂的
2015-06-10 09:48:47 1522
转载 Hive实战之日志分析
Hive实战之日志分析 学习,存储,转载一、场景介绍本文主要讲述使用 hive 的实践,业务不是关键,简要介绍业务场景,本次的任务是对搜索日志数据进行统计分析。集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日志分析机,统计数据要求按小时更新。这些统计项,包括关键词搜索量
2015-06-03 09:53:22 9555 3
转载 Flume学习笔记
Flume学习笔记 参考资料中文资料,log资料格式化,sink自定义http://blog.csdn.net/rjhymApache User Guidehttps://flume.apache.org/FlumeUserGuide.html基于cloudera的安装https://www.cloudera.com/conten
2015-06-03 09:50:27 1512
转载 hadoop能用到的系统端口
hadoop能用到的系统端口 hadoop系统部署时用到不少端口。有的是Web UI所使用的,有的是内部通信所使用的,有的是监控所使用的。实际系统中可能用于防火墙的端口设计。一些内部通信用的端口可能也需要外部能访问。如两个集群的数据对拷。1.系统8080,80 用于tomcat和apache的端口。22 ssh的端口2.Web UI用于访问和
2015-06-03 09:42:37 38565 3
转载 CDH使用秘籍(二):cloudera Manager中监控数据的存储
CDH使用秘籍(二):cloudera Manager中监控数据的存储 概述上一篇文章分析了cloudera manager中监控数据、中心数据的存储方式,怎样配置外部表等。这一篇文章进一步分析监控数据的存储,配置,调优等。Service Monitor 和 Host Monitor 角色在cloudera manager中存储了时间序列、健康数据、Impla查
2015-06-03 09:36:03 6750
转载 CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库
CDH使用秘籍(一):Cloudera Manager和Managed Service的数据库 背景从业务发展需求,大数据平台需要使用spark作为机器学习、数据挖掘、实时计算等工作,所以决定使用Cloudera Manager5.2.0版本和CDH5。以前搭建过Cloudera Manager4.8.2和CDH4,在搭建Cloudera Manager5.
2015-06-03 09:35:39 6012
转载 大数据:CDH和Cloudera Express的介绍
自学大数据:CDH和Cloudera Express的介绍 前言:在上一篇中,讲到了社区版和第三方分发版的Hadoop的一些比较。这一篇文章,主要谈谈CDH及其Cloudera Express(免费版Cloudera Manager)在商业应用中,需要考虑的关键因素,比如功能和license问题。仅供抛砖引玉,有不同意见,尽情讨论!CDH的介绍:
2015-06-03 09:32:40 19196
原创 mongodb的安装配置,使用
//mongodb的安装配置,使用# 2015-05-28# by coco1. mongodb的安装过程 下载,解压mongodb文件,把解压的文件放在/usr/local下[root@slave1 ~]# wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.0.4.tgz[root@
2015-05-28 11:45:27 771
转载 Shell脚本之awk详解
Shell脚本之awk详解一.基本介绍1.awk: awk是一个强大的文本分析工具,在对文本文件的处理以及生成报表,awk是无可替代的。awk认为文本文件都是结构化的,它将每一个输入行定义为一个记录,行中的每个字符串定义为一个域(段),域和域之间使用分割符分割。2.功能:流控制、数学运算、进程控制、内置的变量和函数、循环和判断3.工
2015-05-25 16:49:28 860
转载 linux之awk用法
linux之awk用法 awk是一个非常棒的数字处理工具。相比于sed常常作用于一整行的处理,awk则比较倾向于将一行分为数个“字段”来处理。运行效率高,而且代码简单,对格式化的文本处理能力超强。先来一个例子: 文件a,统计文件a的第一列中是浮点数的行的浮点数的平均值。用awk来实现只需要一句话就可以搞定$cat a1.021 331#.ll 44
2015-05-25 13:57:21 580
原创 mac 下PyCharm运行报错问题解决
今天在本机安装配置python环境,本机执行没问题,但是运用pycharm就报错,明显感觉是路径环境问题。做了修改vim /etc/profile 添加path, 以及vim /etc/bashrc 添加路径,均不成功。后来做了2个软连接问题解决: sudo ln -s /usr/local/mysql/lib/libmysqlclient.18.dylib /usr/lib/libmys
2015-04-09 12:50:23 3894
转载 为Hadoop集群选择合适的硬件配置
为Hadoop集群选择合适的硬件配置存储,学习,共享最近3天一直在搞hadoop集群CDH的安装,本来很easy的事情,搞了3天崩溃。。。。最后在最信任,技术最牛的领导的帮助下,总算搭建成功,服务都跑起来,而且监控显示绿色的。。。。很开心。。。但是,在hbase上创建表时,发现。。。无法创建成功,而且,日志也不报错。。。最后发现hdfs,
2015-03-14 10:07:26 12622 1
转载 离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程
离线安装Cloudera Manager 5和CDH5(最新版5.1.3) 完全教程存储,学习,共享关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多
2015-03-11 13:59:21 6759
转载 MySQL数据库诊断:InnoDB关机问题
问题描述,今天发现一台db服务器,错误日志中有innodb 报错信息,具体如下:space 1131 offset 1221565 (448 records, index id 2730) 206 InnoDB: Submit a detailed bug report to http://bugs.mysql.com 209 2015-01-27 14:47:03 30309 [
2015-02-25 17:20:14 6548
转载 flume-ng+Kafka+Storm+HDFS 实时系统搭建
flume-ng+Kafka+Storm+HDFS 实时系统搭建存储,学习,共享一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@
2015-02-24 16:50:39 1114
原创 Tomcat运行时报内存溢出
Tomcat运行时报内存溢出问题: 当tomcat中布署的项目过多时,在运行时会造成内存溢出,从而导致程序被卡死,无法运行。解决方案: 在tomcat/bin中找到catalina.bat文件,在里面找到echo Using CATALINA_BASE: "%CATALINA_BASE%",在其上面添加一句:set JAVA_OPTS= -Xms1024M
2015-02-12 16:25:10 1271
转载 solr增量数据配置说明
solr增量数据配置说明学习,存储,共享转帖地址:http://www.blogjava.net/conans/articles/379546.html以下资料整理自网络,觉的有必要合并在一起,这样方便查看。主要分为两部分,第一部分是对《db-data-config.xml》的配置内容的讲解(属于高级内容),第二部分是DataImportHandler(属于基础),第三
2015-01-23 09:47:49 2326
转载 大数据架构-使用HBase和Solr配置存储与索引
大数据架构-使用HBase和Solr配置存储与索引2014-08-22 11:04 王安琪 博客园 字号:T | THBase可以通过协处理器Coprocessor的方式向Solr发出请求,Solr对于接收到的数据可以做相关的同步:增、删、改索引的操作,这样就可以同时使用HBase存储量大和Solr检索性能高的优点了,更何况HBase和Solr都可以集群。这对海量数
2015-01-23 09:39:21 2188 1
转载 mysql视图学习总结
mysql视图学习总结存储,学习,共享!一、使用视图的理由是什么?1.安全性。一般是这样做的:创建一个视图,定义好该视图所操作的数据。之后将用户权限与视图绑定。这样的方式是使用到了一个特性:grant语句可以针对视图进行授予权限。2.查询性能提高。3.有灵活性的功能需求后,需要改动表的结构而导致工作量比较大。那么可以使用虚拟表的形式达到少修改的效果。
2015-01-23 08:56:17 753
原创 CDH5.X完全卸载步骤
//CDH5.X完全卸载步骤# by coco# 2015-01-141. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。2. 卸载[root@master ~]# /usr/share/cmf/uninstall-cloudera-manager.sh [root@slave1 ~]# service cloude
2015-01-14 10:50:33 38817
原创 CDH5.X安装配置kerberos认证过程
//CDH安装配置kerberos认证过程---coco# by coco# 2014-12-23CDH-5.2.0-1.cdh5.2.0安装成功,已经运行了几个月了。现在把确实的认证安装配置上。下面是详细的安装配置过程,已经过程中遇到的问题解决办法。1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节
2015-01-14 09:24:19 17474 6
原创 mysql 5.6 order by Limit执行效率问题
今天研发的同事反馈一个sql执行140+s但是sql很简单,也有索引,那么问题出在哪里呢?经过排查发现,mysql中,order by limit 一起用的时候是有问题的不是我们常用的思路,下面举例说明:select tid, productname, pic, minorder, minorderunit from `f_product` where cid =
2015-01-13 17:35:38 9707 3
转载 flume学习(六):使用hive来分析flume收集的日志数据
flume学习(六):使用hive来分析flume收集的日志数据前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events。如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去。如果了解hive的load data原理的话,还有一种更简便的方式,可以省去
2015-01-12 14:42:26 1224
转载 使用Apache Ambari管理Hadoop
随着Hadoop越来越普及,对合适的管理平台的需求成为当前亟待解决的问题。已经有几个商业性的Hadoop管理平台,如Cloudera Enterprise Manager,但Apache Ambari是第一个开源实现。Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapRe
2015-01-09 09:22:21 4042
转载 Hadoop2的HA安装(high availability):JournalNode+ zookeeper
前面介绍过使用NFS+zookeeper来解决namenode单点失败问题,因为NFS可能也会存在单点问题,所以hadoop提供了一种叫做JournalNode技术,这项技术可以在JournalNode节点间共享数据我们来介绍这一种技术:JournalNode+ zookeeperHadoop 版本:2.2.0OS 版本: Centos6.4Jdk 版本: jdk1
2015-01-09 09:11:19 1612
转载 hadoop的kerberos认证
言归正传,介绍过hadoop的simple认证和kerberos后,我们在这一章介绍hadoop的kerberos认证我们还使用hadoop集群的机器。OS 版本: Centos6.4Kerberos版本: krb5-1.10.3环境配置机器名Ip地址功能安装模块gang
2015-01-09 09:08:49 12902
转载 卸载 Cloudera CDH 5 beta2总结
问题导读:1.卸载Cloudera-Manager的命令是什么?2.cloudera的安装目录有哪些?3.如何删除 Cloudera Manager的lock file?操作的系统是Centos OS6.3操作需要root权限,先切换rootsudo su –复制代码1 卸载Cloudera-Manag
2015-01-08 10:26:48 8743
原创 solr4.7安装配置,solrcloud安装配置,中文分词使用步骤
1.Solr的安装与配置2.Solr的几个基本概念3.向Solr中单条写入数据和批量写入数据4.对Solr中的数据精确查询或模糊查询5.Solr的中文分词6.单实例下Solr的主从配置1.1、安装JDK⑴.使用yum安装:yum -y install java-1.7.0-openjdk⑵.下载
2015-01-07 11:02:17 4259
转载 hadoop中使用MapReduce编程实例(转)
hadoop中使用MapReduce编程实例(转)存储,学习,分享原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。
2015-01-07 10:48:54 4716
转载 kerberos认证原理---讲的非常细致,易懂
前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去。后来想想原因有以下两点:对于一个没有完全不了解Kerberos的人来说,Kerberos的整个Authentication过程确实不好理解——一会儿以这个Key进行加密、一会儿又要以另一个Key进行加密,确实很容易把人给弄晕;另一方面是我讲解方式有问题
2015-01-05 09:35:14 235813 46
转载 CDH 的Kerberos认证配置
CDH 的Kerberos认证配置博客分类: Hadoop http://xubo8118.blog.163.com/blog/static/1855523322013918103857226/关于:hadoop的安全机制 hadoop kerberos的安全机制 参考Cloudera官方文档:Configuring
2014-12-26 16:06:11 69183
转载 HDFS配置Kerberos认证
HDFS配置Kerberos认证2014.11.04本文主要记录 CDH Hadoop 集群上配置 HDFS 集成 Kerberos 的过程,包括 Kerberos 的安装和 Hadoop 相关配置修改说明。注意:下面第一、二部分内容,摘抄自《Hadoop的kerberos的实践部署》,主要是为了对 Hadoop 的认证机制和 Kerberos 认证协议做个简单
2014-12-26 16:02:33 43430 6
转载 Hadoop Kerberos安全机制介绍
Hadoop Kerberos安全机制介绍1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成N
2014-12-23 11:41:30 1917
转载 Hive日期函数
存储,学习,共享转自大神 http://www.oratea.net/?p=944UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:
2014-12-02 16:26:24 7186
转载 Hive:简单查询不启用Mapreduce job而启用Fetch task
存储,学习,共享如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:01hive> SELECT id, money FROM m limit 10;02Total MapReduce jobs = 103
2014-12-02 11:20:24 1778
转载 从 MapReduce 到 Hive
1、背景介绍早先的工作中,有很多比较复杂的分析工作,当时对hive还不熟悉,但是java比较熟悉,所以在进行处理的时候,优先选择了MR. 但是随着工作的数据内容越来越多,越来越复杂,对应的调整也越来越多,越来越复杂.纯使用MR方式整个流程就比较复杂,如果需要修改某个部分,那首先需要修改代码中的逻辑,然后把代码打包上传到某个可访问路径上(一般就是hdfs),然后在调度平台内执行.如果改动较大
2014-12-02 10:49:36 6549
原创 Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hado
今天在数据合并的时候发现map 成功但是reduce总是失败,问题简单描述:把每天采集的数据,合并都汇总表中,按天为分区。如下看到map在执行时均成功:但是在最终的 reduce阶段失败,查找原因:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache
2014-12-02 09:00:29 26153
原创 WARN [main] conf.HiveConf (HiveConf.java:initialize(1488)) - DEPRECATED: Configuration property hiv
问题描述:hive 关于告警问题的解决:WARN [main] conf.HiveConf (HiveConf.java:initialize(1488)) - DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value
2014-12-01 14:35:45 3039
新华字典 2014版 Access数据库
2017-01-12
7.7中文破解版.rar
2014-10-09
mysql-connector-java-5.1.31-bin.jar
2014-07-29
MySql常用命令总结
2013-12-20
Atlas部署及常见问题
2013-11-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人