- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 ARIMA时间序列
一:基础我们可以使用sacn()函数的”skip”参数指定文件中从顶部开始有多少行需要忽略。为了将数据读入到R,并且忽略掉文件中的前三行, 我们输入以下代码: kings <- scan(“D:\test\timeseries\king.txt”,skip=3) Read 42 items kings [1] 60 43 67 50 56 42 50 65 68 43 65
2017-04-10 20:38:17 2477
原创 5.sqoop --options-file
For example, the following Sqoop invocation for import can be specified alternatively as shown below:$ sqoop import –connect jdbc:mysql://localhost/db –username foo –table TEST$ sqoop –options-file /us
2017-04-29 16:56:19 2189 1
原创 4.sqoop RDBMS与Hive数据互导
1.从RDBMS导入到Hive 其实是先将RDBMS数据导入到HDFS,然后在load到Hive表中。 对于parquet格式数据在sqoop1.4.6版本以后可以导入Hivebin/sqoop import \--connect jdbc:mysql://hadoop-CDH:3306/test \--username root \--password 123456 \--table
2017-04-29 16:35:13 576
原创 3.sqoop 导入到HDFS,导出到RDBMS
1.普通导入数据 bin/sqoop list-databases \ –connect jdbc:mysql://hostname:3306 \ –username root \ –password 123456 —————————————— mysql中创建表:CREATE TABLE my_user ( id tinyint(4) NOT NULL AUTO_INCREMEN
2017-04-29 11:26:18 2073
原创 2.sqoop安装配置与基本使用
1.配置 mkdir /opt/cdh-5.3.6 chown -R username:username /opt/cdh-5.3.6/ sqoop 的配置很简单,只需要配置sqoop安装目录下:sqoop_home/conf/sqoop.sh 2.基本使用 对于RDBMS中数据进行操作,少不了类似JDBC等的驱动, rdbms/mysql * jbdcurl\username
2017-04-29 11:06:12 698
原创 1.sqoop概念,功能,架构,版本
1.sqoop概念 sqoop(SQL TO HADOOP),是hadoop的协作框架之一 2.功能 对于hadoop进行大数据处理的数据来源主要有两部分 (1)关系数据库,RDBMS(Oracle,MySQL,DB2…) (2)文件(apache,nginx日志数据) hadoop 对于大数据的处理,是将数据存储在HDFS上,sqoop的功能就是将R
2017-04-29 10:37:46 6155
转载 修改hostname
Linux操作系统的hostname是一个kernel变量,可以通过hostname命令来查看本机的hostname。也可以直接cat /proc/sys/kernel/hostname查看。 #hostname #cat /proc/sys/kernel/hostname 上面两种输出结果相同。 修改运行时Linux系统的hostname,即不需要重启系统 hostname命令可以设置系
2017-04-27 16:39:20 511
原创 Hive 创建数据库报错
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From hadoop-senior01/192.168.88.134 to hadoop-sen
2017-04-19 11:06:29 2948
原创 关闭Hadoop时no namenode to stop异常
今天遇到了在关闭hadoop集群的时候,总会跳出说no XXnode to stop,但是使用jps命令任然可以看见进程还在运行的问题。通过查看hadoop安装目录下的sbin下的脚本文件:hadoop-daemon.sh查到,输出这种错误提示的原因是找不到相关进程的pid值,仔细查看该脚本,可以发现相关pid文件是默认保存在根目录下面的/tmp目录中。可以在使用kill命令杀死hadoop相关进
2017-04-15 15:24:08 3872
原创 hadoop datanode启动不起来解决办法
当多次对namenode进行格式化不成功,并且启动不了datanode。logs里记录如下: 当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存
2017-04-08 08:55:57 4541 1
原创 初识Hadoop(会飞的大象)
SQL on Hadoop 1)Hive 2)Prestore 3)Impala 基于内存 4)Phoneix(基于HBase) 5)Spark SQL 1.Hadoop是什么? 从Hadoop权威指南可以看出,Hadoop是用于对可扩展的网络数据的存储和分析。 Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大
2017-04-05 10:32:37 1087
原创 RPM与yum软件管理
rpm -qa 列出系统安装了的rpm包 rpm -qa | grep httpd 查看httpd 是否安装好 安装 : rpm -ivh 包名 卸载:rpm -e 包名 查看文件属于那个包:rpm -qf /etc/ntp.conf yum list 列出所有可以安装的包(包括已安装) yum list | grep httpd-tools 查看httpd-tools有没有装
2017-04-03 11:20:14 646
原创 Linux磁盘分区
linux中所有的设备文件都在/dev下面。 df -h 查看分区情况 fdisk -l 查看磁盘的分区情况。(系统有几个硬盘,每个硬盘的分区情况) /dev/sda —-硬盘1 sda1 —代表第一个分区 sda2—第二个分区 sda3—第三个分区 /dev/sdb —-硬盘2 sdb1 —代表第一个分区 sdb2—第二个分区 sdb3—第三个分区 /dev/sdc —-
2017-04-03 10:17:39 504
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人