BigData
文章平均质量分 69
nisjlvhudy
本人稳重、有活力;工作积极主动,认真负责;能吃苦耐劳,勇于克服困难;有团结协作精神及大局观;肯钻研,有较强的实际动手能力
展开
-
Hive与传统数据库对比
学习前的思考1.Hive的数据存储在什么地方?2.Hive的数据格式什么?3.Hive用户定义数据格式需要什么标准?4.Hive为什么数据加载比传统数据块快?5.Hive的数据是否经常被修改?6.Hive在什么情况下,比传统数据块延迟高?延迟高的原因是什么?原创 2015-07-31 21:22:03 · 10408 阅读 · 0 评论 -
MongoDB数据导出导入工具
一、mongoexportMongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项,也可以根据指定的条件导出数据。参数说明:-h:指明数据库宿主机的IP-u:指明数据库的用户名-p:指明数据库的密码-d:指明数据库的名字-c:指明collection的名字-f:指明要导出那些列-原创 2015-11-14 13:11:47 · 4139 阅读 · 0 评论 -
MongoDB的用户、认证和权限
开启MongoDB服务时不添加任何参数时,默认是没有权限验证的,登录的用户可以对数据库任意操作而且可以远程访问数据库!在刚安装完毕的时候MongoDB都默认有一个admin数据库,此时admin数据库是空的,没有记录权限相关的信息!当admin.system.users一个用户都没有时,即使mongod启动时添加了--auth参数,如果没有在admin数据库中添加用户,此时不进行任何认证还是可原创 2015-11-13 20:57:37 · 667 阅读 · 0 评论 -
CentOs下MongoDB安装
1、下载mongodbwget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-1.6.3.tgz2、解压缩文件tar xzf mongodb-linux-x86_64-1.6.3.tgzmv mongodb-linux-x86_64-1.6.3 /home/spark/opt/mongodb-1.6.33、新原创 2015-11-12 08:57:49 · 531 阅读 · 0 评论 -
大数据环境部署3:Hadoop环境部署
一、安装Hadoop0、下载安装包Wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz1、解压tar-xzvf hadoop-2.6.0.tar.gz 2、move到指定目录下:[spark@LOCALHOST]$原创 2015-10-22 21:00:48 · 1022 阅读 · 0 评论 -
大数据环境部署2:ssh免密码验证配置
进行免密码验证配置之前,要保证机器可以正常通信。1、首先在MASTER机器配置进去.ssh文件夹: [spark@MASTER sbin]$ cd~/.ssh/生成秘钥 ssh-keygen : ssh-keygen -t rsa ,一路狂按回车键就可以了最终生成(id_rsa,id_rsa.pub两个文件)生成authorized_keys原创 2015-10-22 20:58:26 · 1172 阅读 · 0 评论 -
大数据环境部署1:环境及介质说明
一、安装介质与版本OS安装介质:[红帽企业Linux.6.4.服务器版].rhel-server-6.4-x86_64-dvd[ED2000.COM].iso版本:Linux version 2.6.32-358.el6.x86_64(mockbuild@x86-022.build.eng.bos.redhat.com) (gcc version 4.4.7 20120原创 2015-10-22 20:56:30 · 1067 阅读 · 0 评论 -
大数据环境部署7:SparkSQL配置使用
1、SparkSQL配置将$HIVE_HOME/conf/hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下。将$HADOOP_HOME/etc/hadoop/hdfs-site.xml配置文件拷贝到$SPARK_HOME/conf目录下。2、运行启动Spark集群启动SparkSQL Clie原创 2015-10-22 21:05:52 · 3330 阅读 · 0 评论 -
大数据环境部署5:Hive安装部署
1、下载hive:wgethttp://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz。2、解压hive安装文件 tar -zvxf apache-hive-1.2.1-bin.tar.gz,并将解压后的文件移动到目标路径。3、配置mysql元数据库3.1、启动my原创 2015-10-22 21:03:42 · 1028 阅读 · 0 评论 -
大数据环境部署4:mysql安装部署
Mysql的安装是在root用户下进行操作的。下载mysql 安装包[spark@localhost~]$ wgethttp://dev.mysql.com/get/archives/mysql-5.6/mysql-5.6.12-linux-glibc2.5-x86_64.tar.gz解压安装包进入安装包所在目录,执行命令原创 2015-10-22 21:02:30 · 813 阅读 · 0 评论 -
大数据环境部署6:Spark环境部署
1、下载scala2.11.4版本下载地址为:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768 2、解压和安装原创 2015-10-22 21:04:48 · 999 阅读 · 0 评论 -
Hive静态分区表
Hive的分区表分为动态分区和静态分区,分区表的使用能够为巨量表查询性能的提高提供帮助。静态分区在数据载入前需要事先将分区建好,使用起来稍显复杂,而动态表可以根据数据自动建立分区,但同时花费了巨大的性能代价。如果分区是可以确定的话,一定不要用动态分区,动态分区的值是在reduce运行阶段确定的;也就是会把所有的记录distribute by。 可想而知表记录非常大的话,只有一个redu原创 2015-11-05 20:47:23 · 1627 阅读 · 0 评论 -
Hive自身数据导出的方式
根据导出的位置不一样,将这些方式分为三种:1、导出到本地文件系统;2、导出到HDFS中;3、导出到Hive的另一个表中。一、导出到本地文件系统及HDFS中INSERT OVERWRITE LOCAL DIRECTORY '/home/spark/opt/data_dir/base_food' row format delimited fields terminated by原创 2015-11-05 17:32:51 · 680 阅读 · 0 评论 -
sqoop工具常用Hive操作
1、查看sqoop命令说明[spark@Master data_dir]$ sqoop helpusage: sqoop COMMAND [ARGS]Available commands: codegen Generate code to interact with database records create-hive-table Impo原创 2015-11-05 19:50:44 · 1472 阅读 · 0 评论 -
Hive自身数据导入的方式
Hive几种常见的数据导入方式,总结为四种: 1、从本地文件系统中导入数据到Hive表; 2、从HDFS上导入数据到Hive表; 3、从别的表中查询出相应的数据并导入到Hive表中; 4、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。 一、从本地文件系统中导入数据到Hive表LOAD DATA LOCAL INPATH '/home/spark/原创 2015-11-05 17:55:04 · 524 阅读 · 0 评论 -
大数据环境部署8:Sqoop1部署安装
一、Sqoop的安装1、下载sqoop并解压:也可用wge命令下载sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 对应hadoop 2.x http://psg.mtu.edu/pub/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz解压原创 2015-10-31 09:34:39 · 1389 阅读 · 1 评论