2016年05月_JackLi_csdn

原创 mysql搭建以及调优

搭建： http://www.runoob.com/mysql/mysql-install.html 调优： http://zhou123.blog.51cto.com/4355617/1152994 https://blog.linuxeye.com/379.html

2016-05-31 18:37:34 518

转载 etcd

启动集群./etcd -name THadoop2 -initial-advertise-peer-urls http://10.185.28.94:2380 \ -listen-peer-urls http://10.185.28.94:2380 \ -listen-client-urls http://10.185.28.94:2379,http://127.0.0.1:2379 \

2016-05-31 15:14:20 1216

转载 docker 相关

https://yeasy.gitbooks.io/docker_practice/content/

2016-05-31 12:33:57 270

原创命令使用

hdfs常用命令：上传： hadoop fs -put wp.txt /user 添加文件到hdfs上已经有的文件： hadoop fs -appendToFile a.txt /user/wp.txt hdfs删除文件： hadoop fs -rm -r 路径查看hadoop 状态 hadoop dfsadmin -report磁盘写满： http://qindongl...

2016-05-30 19:16:10 946 1

原创 hive 使用

location一定不要选择“/”，一定要独立使用一个目录，否则会出现很多意想不到的错误

2016-05-30 19:04:35 279

原创 hadoop 集群调优

查看hdfs 大小 hdfs dfs -df -h刷新集群： hadoop dfsadmin -refreshNodes一定要设置负载均衡 ./start-balancer.sh -threshold 1参考： http://www.cnblogs.com/BYRans/p/5128162.html http://www.ibm.com/developerworks/cn/data/lib

2016-05-30 13:18:17 774

原创 flume 拦截器

a4.sources.r1.interceptors = i1 i2a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Buildera4.sources.r1.interceptors.i2.type=hosta4.sources.r1.interceptors.i2.u

2016-05-27 14:36:03 369

转载开源框架

http://www.36dsj.com/archives/25042

2016-05-26 18:41:46 254

原创 spark 性能调优

https://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/spark-sql/performance-tuning.html http://blog.csdn.net/book_mmicky/article/details/40394081

2016-05-26 14:46:45 536

原创 hadoop集群删除节点

http://www.aboutyun.com/thread-7532-1-1.html /letv/data/hadoop-2.6.0/bin/hadoop dfsadmin -refreshNodes

2016-05-26 13:56:07 390

原创 spark sql cli

将hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下；

2016-05-25 14:24:09 425

原创 hadoop集群搭建

查看系统是64位还是32位：file /sbin/init 查看hadoop版本 hadoop version检查ssh server：ps -e | grep ssh 查看ssh服务有没有运行,如果有,可以看到类似以下内容: 2254 ? 00:00:00 sshd 若没有则安装ssh server： root]#/etc/rc.d/

2016-05-23 18:45:36 476

转载 word2vec

参考： http://wei-li.cnblogs.com/p/word2vec.html http://blog.csdn.net/lingerlanlan/article/details/38232755 http://blog.csdn.net/zhaoxinfan/article/details/11069485 http://blog.csdn.net/zhaoxinfan/art

2016-05-22 15:55:42 214

转载 scala

http://my.oschina.net/chengye/blog/126461

2016-05-16 18:39:43 405

原创 spark RDD

命令行下如果需要绑定文件路径需要使用如下方式val textFile = sc.textFile(&amp;amp;amp;quot;file:///letv/data/spark-1.5.0-bin-hadoop2.6/README.md&amp;amp;amp;quot;)参考： http://colobu.com/2014/12/08/spark-quick-start/

2016-05-16 17:51:27 376

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里做一个简单的介绍。　　一、RDD内存数据结构　　大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升

2016-05-16 17:30:36 849

转载 hbase

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 hbase是一个适合于非结构化数据存储的数据库，它是基于列的而不是基于行的。

2016-05-15 21:28:09 304

原创 spark 搭建

启动spark sbin/start-all.sh 主节点： slave节点：参考： http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/

2016-05-15 21:20:07 435

原创 hive--分区

在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。至于用户存储的每一条记录到底放到哪个分区，由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。

2016-05-10 17:39:02 293

原创 hive--桶

桶： set hive.enforce.bucketing = true; 使hive知道用表定义中声明的数量来创建桶create table bucketed_wyp (id int, name string, age int, tel string) clustered by (id) sorted by (id asc) into 4 buckets;in

2016-05-10 16:52:20 521

原创日志分析

要分析的字段：访问的资源、cookie（代表用户，因为ip是公网ip，很多人共用）、步骤： 1、flume 采集数据，可以使用shell等脚本设置定时任务 2、对数据进行清洗 3、使用hive对数据进行分析（比如说外部分区表），自动执行 4、把hive分析的结果通过sqoop倒回到MySQL、hbase中 5、提供视图工具，类似报表

2016-05-10 10:55:30 308

原创 Kafka

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：1、以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间复杂度的访问

2016-05-09 14:19:17 460

原创 flume搭建

tar -zxvf apache-flume-1.5.0-bin.tar.gz -C 路径 bin 目录下只有flume-ng conf 目录下有flume-conf.properties.template flume-env.sh.template log4j.properties 重命名 mv flume-env.sh.template flume-env.sh/etc/profile

2016-05-05 23:27:42 962

原创 shell 总结

scp：复制目录：会将目录下的所有内容复制过来 scp -r dsj root@ip:/letv/data 参考： http://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/scp.htmlscp: 从本地服务器复制到远程服务器： scp local_file remote_username@remote_ip:remote_...

2016-05-04 14:31:31 552

原创定时任务

Crontab 使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?crontab –e 0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/backup.shCron 各项的描述以下是 crontab 文件的格式：{minute} {

2016-05-04 13:50:28 254

原创日志

upload.sh#!/usr/bin/env bashdate=`date +%Y%m%d%H%M%S`scp /letv/data/wp.txt [email protected]:/letv/data/${date}_wp.txtssh 10.185.28.16 /letv/data/hadoop-2.6.0/bin/hadoop fs -put /letv/data/${date}_w

2016-05-04 12:10:01 316

原创 MAC使用secureCRT

imac 上传下载下载iterm2，解压缩后运行，然后在secureCrt上输入rz就可以上传文件输入sz 文件就可以从远程服务器中下载，默认目录为/Users/xiewei/Documents中http://iterm2.com/downloads.html

2016-05-03 17:26:34 821

JackLi31742的博客