2017年04月_一世为仁

原创 ARIMA时间序列

一：基础我们可以使用sacn()函数的”skip”参数指定文件中从顶部开始有多少行需要忽略。为了将数据读入到R，并且忽略掉文件中的前三行，我们输入以下代码： kings <- scan(“D:\test\timeseries\king.txt”,skip=3) Read 42 items kings [1] 60 43 67 50 56 42 50 65 68 43 65

2017-04-10 20:38:17 2477

For example, the following Sqoop invocation for import can be specified alternatively as shown below:$ sqoop import –connect jdbc:mysql://localhost/db –username foo –table TEST$ sqoop –options-file /us

2017-04-29 16:56:19 2189 1

原创 4.sqoop RDBMS与Hive数据互导

1.从RDBMS导入到Hive 其实是先将RDBMS数据导入到HDFS，然后在load到Hive表中。对于parquet格式数据在sqoop1.4.6版本以后可以导入Hivebin/sqoop import \--connect jdbc:mysql://hadoop-CDH:3306/test \--username root \--password 123456 \--table

2017-04-29 16:35:13 576

原创 3.sqoop 导入到HDFS，导出到RDBMS

1.普通导入数据 bin/sqoop list-databases \ –connect jdbc:mysql://hostname:3306 \ –username root \ –password 123456 —————————————— mysql中创建表：CREATE TABLE my_user ( id tinyint(4) NOT NULL AUTO_INCREMEN

2017-04-29 11:26:18 2073

原创 2.sqoop安装配置与基本使用

1.配置 mkdir /opt/cdh-5.3.6 chown -R username:username /opt/cdh-5.3.6/ sqoop 的配置很简单，只需要配置sqoop安装目录下：sqoop_home/conf/sqoop.sh 2.基本使用对于RDBMS中数据进行操作，少不了类似JDBC等的驱动， rdbms/mysql * jbdcurl\username

2017-04-29 11:06:12 698

原创 1.sqoop概念，功能，架构，版本

1.sqoop概念 sqoop（SQL TO HADOOP）,是hadoop的协作框架之一 2.功能对于hadoop进行大数据处理的数据来源主要有两部分 (1)关系数据库，RDBMS（Oracle，MySQL，DB2…） (2)文件（apache，nginx日志数据） hadoop 对于大数据的处理，是将数据存储在HDFS上，sqoop的功能就是将R

2017-04-29 10:37:46 6155

转载修改hostname

Linux操作系统的hostname是一个kernel变量，可以通过hostname命令来查看本机的hostname。也可以直接cat /proc/sys/kernel/hostname查看。　　#hostname　　#cat /proc/sys/kernel/hostname　　上面两种输出结果相同。　　修改运行时Linux系统的hostname，即不需要重启系统　　hostname命令可以设置系

2017-04-27 16:39:20 511

原创 Hive 创建数据库报错

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From hadoop-senior01/192.168.88.134 to hadoop-sen

2017-04-19 11:06:29 2948

原创关闭Hadoop时no namenode to stop异常

今天遇到了在关闭hadoop集群的时候，总会跳出说no XXnode to stop，但是使用jps命令任然可以看见进程还在运行的问题。通过查看hadoop安装目录下的sbin下的脚本文件：hadoop-daemon.sh查到，输出这种错误提示的原因是找不到相关进程的pid值，仔细查看该脚本，可以发现相关pid文件是默认保存在根目录下面的/tmp目录中。可以在使用kill命令杀死hadoop相关进

2017-04-15 15:24:08 3872

原创 hadoop datanode启动不起来解决办法

当多次对namenode进行格式化不成功，并且启动不了datanode。logs里记录如下：当我们执行文件系统格式化时，会在namenode数据文件夹（即配置文件中dfs.name.dir在本地系统的路径）中保存一个current/VERSION文件，记录namespaceID，标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode，那么datanode中保存

2017-04-08 08:55:57 4541 1

原创 Hadoop安装与搭建

1首先检查系统里是否自带JDK 2.删除原jdk，安装JDK并配置环境 3.安装hadoop与HDFS 4.配置YARN

2017-04-06 10:42:39 407

原创初识Hadoop（会飞的大象）

SQL on Hadoop 1）Hive 2）Prestore 3）Impala 基于内存 4）Phoneix（基于HBase） 5）Spark SQL 1.Hadoop是什么？从Hadoop权威指南可以看出，Hadoop是用于对可扩展的网络数据的存储和分析。 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大

2017-04-05 10:32:37 1087

原创 RPM与yum软件管理

rpm -qa 列出系统安装了的rpm包 rpm -qa | grep httpd 查看httpd 是否安装好安装： rpm -ivh 包名卸载：rpm -e 包名查看文件属于那个包：rpm -qf /etc/ntp.conf yum list 列出所有可以安装的包（包括已安装） yum list | grep httpd-tools 查看httpd-tools有没有装

2017-04-03 11:20:14 646

原创 Linux磁盘分区

linux中所有的设备文件都在/dev下面。 df -h 查看分区情况 fdisk -l 查看磁盘的分区情况。（系统有几个硬盘，每个硬盘的分区情况） /dev/sda —-硬盘1 sda1 —代表第一个分区 sda2—第二个分区 sda3—第三个分区 /dev/sdb —-硬盘2 sdb1 —代表第一个分区 sdb2—第二个分区 sdb3—第三个分区 /dev/sdc —-

2017-04-03 10:17:39 504

百年一梦