JackLi_csdn-CSDN博客

转载 etcd

启动集群./etcd -name THadoop2 -initial-advertise-peer-urls http://10.185.28.94:2380 \ -listen-peer-urls http://10.185.28.94:2380 \ -listen-client-urls http://10.185.28.94:2379,http://127.0.0.1:2379 \

2016-05-31 15:14:20 1242

转载 docker 相关

https://yeasy.gitbooks.io/docker_practice/content/

2016-05-31 12:33:57 284

原创命令使用

hdfs常用命令：上传： hadoop fs -put wp.txt /user 添加文件到hdfs上已经有的文件： hadoop fs -appendToFile a.txt /user/wp.txt hdfs删除文件： hadoop fs -rm -r 路径查看hadoop 状态 hadoop dfsadmin -report磁盘写满： http://qindongl...

2016-05-30 19:16:10 991 1

原创 hive 使用

location一定不要选择“/”，一定要独立使用一个目录，否则会出现很多意想不到的错误

2016-05-30 19:04:35 286

原创 hadoop 集群调优

查看hdfs 大小 hdfs dfs -df -h刷新集群： hadoop dfsadmin -refreshNodes一定要设置负载均衡 ./start-balancer.sh -threshold 1参考： http://www.cnblogs.com/BYRans/p/5128162.html http://www.ibm.com/developerworks/cn/data/lib

2016-05-30 13:18:17 784

原创 flume 拦截器

a4.sources.r1.interceptors = i1 i2a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Buildera4.sources.r1.interceptors.i2.type=hosta4.sources.r1.interceptors.i2.u

2016-05-27 14:36:03 378

转载开源框架

http://www.36dsj.com/archives/25042

2016-05-26 18:41:46 270

原创 spark 性能调优

https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081

2016-05-26 14:46:45 568

原创 hadoop集群删除节点

http://www.aboutyun.com/thread-7532-1-1.html /letv/data/hadoop-2.6.0/bin/hadoop dfsadmin -refreshNodes

2016-05-26 13:56:07 405

原创 spark sql cli

将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下；

2016-05-25 14:24:09 442

原创 hadoop集群搭建

查看系统是64位还是32位：file /sbin/init 查看hadoop版本 hadoop version检查ssh server：ps -e | grep ssh 查看ssh服务有没有运行,如果有,可以看到类似以下内容: 2254 ? 00:00:00 sshd 若没有则安装ssh server： root]#/etc/rc.d/

2016-05-23 18:45:36 517

转载 word2vec

参考： http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art

2016-05-22 15:55:42 225

转载 scala

http://my.oschina.net/chengye/blog/126461

2016-05-16 18:39:43 420

原创 spark RDD

命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile(&amp;amp;amp;quot;file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md&amp;amp;amp;quot;)参考： http://colobu.com/2014/12/08/spark-quick-start/

2016-05-16 17:51:27 390

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。　　一、RDD内存数据结构　　大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升

2016-05-16 17:30:36 864

转载 hbase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 hbase是一个适合于非结构化数据存储的数据库，它是基于列的而不是基于行的。

2016-05-15 21:28:09 317

原创 spark 搭建

启动spark sbin/start-all.sh 主节点： slave节点：参考： http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/

2016-05-15 21:20:07 452

原创 hive--分区

在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。至于用户存储的每一条记录到底放到哪个分区，由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。

2016-05-10 17:39:02 304

原创 hive--桶

桶： set hive.enforce.bucketing = true; 使hive知道用表定义中声明的数量来创建桶create table bucketed_wyp (id int, name string, age int, tel string) clustered by (id) sorted by (id asc) into 4 buckets;in

2016-05-10 16:52:20 537

原创日志分析

要分析的字段：访问的资源、cookie（代表用户，因为ip是公网ip，很多人共用）、步骤： 1、flume 采集数据，可以使用shell等脚本设置定时任务 2、对数据进行清洗 3、使用hive对数据进行分析（比如说外部分区表），自动执行 4、把hive分析的结果通过sqoop倒回到MySQL、hbase中 5、提供视图工具，类似报表

2016-05-10 10:55:30 320

原创 Kafka

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：1、以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间复杂度的访问

2016-05-09 14:19:17 472

原创 flume搭建

tar -zxvf apache-flume-1.5.0-bin.tar.gz -C 路径 bin 目录下只有flume-ng conf 目录下有flume-conf.properties.template flume-env.sh.template log4j.properties 重命名 mv flume-env.sh.template flume-env.sh/etc/profile

2016-05-05 23:27:42 973

原创 shell 总结

scp：复制目录：会将目录下的所有内容复制过来 scp -r dsj root@ip:/letv/data 参考： http://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/scp.htmlscp: 从本地服务器复制到远程服务器： scp local_file remote_username@remote_ip:remote_...

2016-05-04 14:31:31 565

原创定时任务

Crontab 使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?crontab –e 0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/backup.shCron 各项的描述以下是 crontab 文件的格式：{minute} {

2016-05-04 13:50:28 264

原创日志

upload.sh#!/usr/bin/env bashdate=`date +%Y%m%d%H%M%S`scp /letv/data/wp.txt root@10.185.28.16:/letv/data/${date}_wp.txtssh 10.185.28.16 /letv/data/hadoop-2.6.0/bin/hadoop fs -put /letv/data/${date}_w

2016-05-04 12:10:01 332

原创 MAC使用secureCRT

imac 上传下载下载iterm2，解压缩后运行，然后在secureCrt上输入rz就可以上传文件输入sz 文件就可以从远程服务器中下载，默认目录为/Users/xiewei/Documents中http://iterm2.com/downloads.html

2016-05-03 17:26:34 828

原创 solr配置文件

/letv/data/tomcat-solr/conf/server.xml<?xml version='1.0' encoding='utf-8'?><Server port="8005" shutdown="SHUTDOWN"> <Listener className="org.apache.catalina.core.AprLifecycleListener" SSLEngine="o

2016-04-29 17:51:06 511

转载负载均衡

负载均衡服务器只负责转发给weblogic等服务器，session共享

2016-04-28 16:41:45 356

转载 Solr

Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果solr 部署在了tomcat上，所以访问的时候是通过ip:端口/webapps/路径访问/letv/data/solrhome/solr.xml 下配置了管理

2016-04-28 16:04:04 412

原创 zookeeper

zookeeper分布式应用程序协调服务，是Hadoop和Hbase的重要组件。提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Zookeeper：主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 Znode维护着数据、ACL（access control list，访问控制列表）、时间戳等交换版本号等数据结构，它

2016-04-28 16:03:31 444

原创 Sqoop

Sqoop在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递

2016-04-28 16:03:06 465

原创 Hive

Hive数据仓库可以将sql变成mapreduce任务 HIVE:HQL和MySQL语句相差不多 1.Hive不支持行级插入操作、更新操作和删除操作，同时它也不支持事务。 2.Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。如果用户没有显式指定数据库，就会默认使用默认库default。 3.默认创建的是托管表，在load时不检查数据是否符合格式，因为load是移动操作，将数据从

2016-04-28 16:02:33 677

原创 Flume

Flume海量日志采集、聚合和传输的系统 Flume-Og Flume-Og采用了分层架构：分别为agent，collector和storage。其中，agent和collector均由两部分组成：source和sink，source是数据来源，sink是数据去向。storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。 Master是管理协

2016-04-28 16:01:55 1152

原创 Ganglia

Ganglia集群监视项目，包括gmond、gmetad以及一个Web前端 Gmond :是一个守护进程，他运行在每一个需要监测的节点上，收集监测统计，发送和接受在同一个组播或单播通道上的统计信息如果他是一个发送者(mute=no)他会收集基本指标，比如系统负载（load_one）,CPU利用率。他同时也会发送用户通过添加C/Python模块来自定义的指标。如果他是一个接收者（deaf=no）

2016-04-28 16:01:13 1576

转载 Hadoop

Hadoop：分布式系统基础架构 HDFS（分布式文件系统）配置的位置： /letv/data/hadoop-2.6.0/etc/Hadoop 配置hdfs-site.xml： hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM(Qurom Journal Manager)。这里我们使用简单的QJM。在该方案中，主备NameNode之间通过一组Jour

2016-04-28 15:59:27 602

转载欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-04-28 15:51:30 292

JackLi31742的博客