- 博客(27)
- 收藏
- 关注
原创 mysql搭建以及调优
搭建: http://www.runoob.com/mysql/mysql-install.html 调优: http://zhou123.blog.51cto.com/4355617/1152994 https://blog.linuxeye.com/379.html
2016-05-31 18:37:34 518
转载 etcd
启动集群./etcd -name THadoop2 -initial-advertise-peer-urls http://10.185.28.94:2380 \ -listen-peer-urls http://10.185.28.94:2380 \ -listen-client-urls http://10.185.28.94:2379,http://127.0.0.1:2379 \
2016-05-31 15:14:20 1216
原创 命令 使用
hdfs常用命令: 上传: hadoop fs -put wp.txt /user 添加文件到hdfs上已经有的文件: hadoop fs -appendToFile a.txt /user/wp.txt hdfs删除文件: hadoop fs -rm -r 路径查看hadoop 状态 hadoop dfsadmin -report磁盘写满: http://qindongl...
2016-05-30 19:16:10 946 1
原创 hadoop 集群调优
查看hdfs 大小 hdfs dfs -df -h刷新集群: hadoop dfsadmin -refreshNodes一定要设置负载均衡 ./start-balancer.sh -threshold 1参考: http://www.cnblogs.com/BYRans/p/5128162.html http://www.ibm.com/developerworks/cn/data/lib
2016-05-30 13:18:17 774
原创 flume 拦截器
a4.sources.r1.interceptors = i1 i2a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Buildera4.sources.r1.interceptors.i2.type=hosta4.sources.r1.interceptors.i2.u
2016-05-27 14:36:03 369
原创 spark 性能调优
https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081
2016-05-26 14:46:45 536
原创 hadoop集群删除节点
http://www.aboutyun.com/thread-7532-1-1.html /letv/data/hadoop-2.6.0/bin/hadoop dfsadmin -refreshNodes
2016-05-26 13:56:07 390
原创 hadoop集群搭建
查看系统是64位还是32位:file /sbin/init 查看hadoop版本 hadoop version检查ssh server:ps -e | grep ssh 查看ssh服务有没有运行,如果有,可以看到类似以下内容: 2254 ? 00:00:00 sshd 若没有则安装ssh server: root]#/etc/rc.d/
2016-05-23 18:45:36 476
转载 word2vec
参考: http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art
2016-05-22 15:55:42 214
原创 spark RDD
命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile("file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md")参考: http://colobu.com/2014/12/08/spark-quick-start/
2016-05-16 17:51:27 376
转载 Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。 一、RDD内存数据结构 大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升
2016-05-16 17:30:36 849
转载 hbase
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 hbase是一个适合于非结构化数据存储的数据库,它是基于列的而不是基于行的。
2016-05-15 21:28:09 304
原创 spark 搭建
启动spark sbin/start-all.sh 主节点: slave节点: 参考: http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/
2016-05-15 21:20:07 435
原创 hive--分区
在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。至于用户存储的每一条记录到底放到哪个分区,由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。
2016-05-10 17:39:02 293
原创 hive--桶
桶: set hive.enforce.bucketing = true; 使hive知道用表定义中声明的数量来创建桶create table bucketed_wyp (id int, name string, age int, tel string) clustered by (id) sorted by (id asc) into 4 buckets;<!--插入是一个mp任务-->in
2016-05-10 16:52:20 521
原创 日志分析
要分析的字段:访问的资源、cookie(代表用户,因为ip是公网ip,很多人共用)、 步骤: 1、flume 采集数据,可以使用shell等脚本设置定时任务 2、对数据进行清洗 3、使用hive对数据进行分析(比如说外部分区表),自动执行 4、把hive分析的结果通过sqoop倒回到MySQL、hbase中 5、提供视图工具,类似报表
2016-05-10 10:55:30 308
原创 Kafka
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:1、以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问
2016-05-09 14:19:17 460
原创 flume搭建
tar -zxvf apache-flume-1.5.0-bin.tar.gz -C 路径 bin 目录下只有flume-ng conf 目录下有flume-conf.properties.template flume-env.sh.template log4j.properties 重命名 mv flume-env.sh.template flume-env.sh/etc/profile
2016-05-05 23:27:42 962
原创 shell 总结
scp: 复制目录:会将目录下的所有内容复制过来 scp -r dsj root@ip:/letv/data 参考: http://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/scp.htmlscp: 从本地服务器复制到远程服务器: scp local_file remote_username@remote_ip:remote_...
2016-05-04 14:31:31 552
原创 定时任务
Crontab 使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?crontab –e 0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/backup.shCron 各项的描述以下是 crontab 文件的格式:{minute} {
2016-05-04 13:50:28 254
原创 日志
upload.sh#!/usr/bin/env bashdate=`date +%Y%m%d%H%M%S`scp /letv/data/wp.txt [email protected]:/letv/data/${date}_wp.txtssh 10.185.28.16 /letv/data/hadoop-2.6.0/bin/hadoop fs -put /letv/data/${date}_w
2016-05-04 12:10:01 316
原创 MAC使用secureCRT
imac 上传下载 下载iterm2,解压缩后运行,然后在secureCrt上输入rz就可以上传文件 输入sz 文件 就可以从远程服务器中下载,默认目录为/Users/xiewei/Documents中http://iterm2.com/downloads.html
2016-05-03 17:26:34 821
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人