自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(316)
  • 收藏
  • 关注

转载 etcd

启动集群./etcd -name THadoop2 -initial-advertise-peer-urls http://10.185.28.94:2380 \ -listen-peer-urls http://10.185.28.94:2380 \ -listen-client-urls http://10.185.28.94:2379,http://127.0.0.1:2379 \

2016-05-31 15:14:20 1242

转载 docker 相关

https://yeasy.gitbooks.io/docker_practice/content/

2016-05-31 12:33:57 284

原创 命令 使用

hdfs常用命令: 上传: hadoop fs -put wp.txt /user 添加文件到hdfs上已经有的文件: hadoop fs -appendToFile a.txt /user/wp.txt hdfs删除文件: hadoop fs -rm -r 路径查看hadoop 状态 hadoop dfsadmin -report磁盘写满: http://qindongl...

2016-05-30 19:16:10 991 1

原创 hive 使用

location一定不要选择“/”,一定要独立使用一个目录,否则会出现很多意想不到的错误

2016-05-30 19:04:35 286

原创 hadoop 集群调优

查看hdfs 大小 hdfs dfs -df -h刷新集群: hadoop dfsadmin -refreshNodes一定要设置负载均衡 ./start-balancer.sh -threshold 1参考: http://www.cnblogs.com/BYRans/p/5128162.html http://www.ibm.com/developerworks/cn/data/lib

2016-05-30 13:18:17 784

原创 flume 拦截器

a4.sources.r1.interceptors = i1 i2a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Buildera4.sources.r1.interceptors.i2.type=hosta4.sources.r1.interceptors.i2.u

2016-05-27 14:36:03 378

转载 开源框架

http://www.36dsj.com/archives/25042

2016-05-26 18:41:46 270

原创 spark 性能调优

https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081

2016-05-26 14:46:45 568

原创 hadoop集群删除节点

http://www.aboutyun.com/thread-7532-1-1.html /letv/data/hadoop-2.6.0/bin/hadoop dfsadmin -refreshNodes

2016-05-26 13:56:07 405

原创 spark sql cli

将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下;

2016-05-25 14:24:09 442

原创 hadoop集群搭建

查看系统是64位还是32位:file /sbin/init 查看hadoop版本 hadoop version检查ssh server:ps -e | grep ssh 查看ssh服务有没有运行,如果有,可以看到类似以下内容: 2254 ? 00:00:00 sshd 若没有则安装ssh server: root]#/etc/rc.d/

2016-05-23 18:45:36 517

转载 word2vec

参考: http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art

2016-05-22 15:55:42 225

转载 scala

http://my.oschina.net/chengye/blog/126461

2016-05-16 18:39:43 420

原创 spark RDD

命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile("file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md")参考: http://colobu.com/2014/12/08/spark-quick-start/

2016-05-16 17:51:27 390

转载 Spark大数据分析框架的核心部件

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。  一、RDD内存数据结构  大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升

2016-05-16 17:30:36 864

转载 hbase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 hbase是一个适合于非结构化数据存储的数据库,它是基于列的而不是基于行的。

2016-05-15 21:28:09 317

原创 spark 搭建

启动spark sbin/start-all.sh 主节点: slave节点: 参考: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/

2016-05-15 21:20:07 452

原创 hive--分区

在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。至于用户存储的每一条记录到底放到哪个分区,由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。

2016-05-10 17:39:02 304

原创 hive--桶

桶: set hive.enforce.bucketing = true; 使hive知道用表定义中声明的数量来创建桶create table bucketed_wyp (id int, name string, age int, tel string) clustered by (id) sorted by (id asc) into 4 buckets;<!--插入是一个mp任务-->in

2016-05-10 16:52:20 537

原创 日志分析

要分析的字段:访问的资源、cookie(代表用户,因为ip是公网ip,很多人共用)、 步骤: 1、flume 采集数据,可以使用shell等脚本设置定时任务 2、对数据进行清洗 3、使用hive对数据进行分析(比如说外部分区表),自动执行 4、把hive分析的结果通过sqoop倒回到MySQL、hbase中 5、提供视图工具,类似报表

2016-05-10 10:55:30 320

原创 Kafka

Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:1、以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问

2016-05-09 14:19:17 472

原创 flume搭建

tar -zxvf apache-flume-1.5.0-bin.tar.gz -C 路径 bin 目录下只有flume-ng conf 目录下有flume-conf.properties.template flume-env.sh.template log4j.properties 重命名 mv flume-env.sh.template flume-env.sh/etc/profile

2016-05-05 23:27:42 973

原创 shell 总结

scp: 复制目录:会将目录下的所有内容复制过来 scp -r dsj root@ip:/letv/data 参考: http://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/scp.htmlscp: 从本地服务器复制到远程服务器: scp local_file remote_username@remote_ip:remote_...

2016-05-04 14:31:31 565

原创 定时任务

Crontab 使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?crontab –e 0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/backup.shCron 各项的描述以下是 crontab 文件的格式:{minute} {

2016-05-04 13:50:28 264

原创 日志

upload.sh#!/usr/bin/env bashdate=`date +%Y%m%d%H%M%S`scp /letv/data/wp.txt root@10.185.28.16:/letv/data/${date}_wp.txtssh 10.185.28.16 /letv/data/hadoop-2.6.0/bin/hadoop fs -put /letv/data/${date}_w

2016-05-04 12:10:01 332

原创 MAC使用secureCRT

imac 上传下载 下载iterm2,解压缩后运行,然后在secureCrt上输入rz就可以上传文件 输入sz 文件 就可以从远程服务器中下载,默认目录为/Users/xiewei/Documents中​​http://iterm2.com/downloads.html

2016-05-03 17:26:34 828

原创 solr配置文件

/letv/data/tomcat-solr/conf/server.xml<?xml version='1.0' encoding='utf-8'?><Server port="8005" shutdown="SHUTDOWN"> <Listener className="org.apache.catalina.core.AprLifecycleListener" SSLEngine="o

2016-04-29 17:51:06 511

转载 负载均衡

负载均衡服务器只负责转发给weblogic等服务器,session共享

2016-04-28 16:41:45 356

转载 Solr

Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果solr 部署在了tomcat上,所以访问的时候是通过ip:端口/webapps/路径访问/letv/data/solrhome/solr.xml 下配置了管理

2016-04-28 16:04:04 412

原创 zookeeper

zookeeper分布式应用程序协调服务,是Hadoop和Hbase的重要组件。提供的功能包括:配置维护、域名服务、分布式同步、组服务等。Zookeeper:主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 Znode维护着数据、ACL(access control list,访问控制列表)、时间戳等交换版本号等数据结构,它

2016-04-28 16:03:31 444

原创 Sqoop

Sqoop在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递

2016-04-28 16:03:06 465

原创 Hive

Hive数据仓库 可以将sql变成mapreduce任务 HIVE:HQL和MySQL语句相差不多 1.Hive不支持行级插入操作、更新操作和删除操作,同时它也不支持事务。 2.Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。如果用户没有显式指定数据库,就会默认使用默认库default。 3.默认创建的是托管表,在load时不检查数据是否符合格式,因为load是移动操作,将数据从

2016-04-28 16:02:33 677

原创 Flume

Flume海量日志采集、聚合和传输的系统 Flume-Og Flume-Og采用了分层架构:分别为agent,collector和storage。其中,agent和collector均由两部分组成:source和sink,source是数据来源,sink是数据去向。storage是存储系统,可以是一个普通file,也可以是HDFS,HIVE,HBase,分布式存储等。 Master是管理协

2016-04-28 16:01:55 1152

原创 Ganglia

Ganglia集群监视项目,包括gmond、gmetad以及一个Web前端 Gmond :是一个守护进程,他运行在每一个需要监测的节点上,收集监测统计,发送和接受在同一个组播或单播通道上的统计信息 如果他是一个发送者(mute=no)他会收集基本指标,比如系统负载(load_one),CPU利用率。他同时也会发送用户通过添加C/Python模块来自定义的指标。 如果他是一个接收者(deaf=no)

2016-04-28 16:01:13 1576

转载 Hadoop

Hadoop:分布式系统基础架构 HDFS(分布式文件系统) 配置的位置: /letv/data/hadoop-2.6.0/etc/Hadoop 配置hdfs-site.xml: hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM(Qurom Journal Manager)。这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组Jour

2016-04-28 15:59:27 602

转载 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-04-28 15:51:30 292

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除