自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (4)
  • 收藏
  • 关注

原创 cassandra修改表的primary

现在cassandra数据库中有一张表因为同事在建表时定义错了primary key,现在需要重新修改primary key,而经过查看cql命令文档http://cassandra.apache.org/doc/cql3/CQL.html#alterTableStmt发现cassandra不支持直接修改primary key,因此需要将原表中的数据导出,之后删除原表,之后再按照修改后的表结构重新

2016-07-29 17:14:23 3470

转载 cassandra导出和导入数据

cassandra像其他RDBMS一样提供了export/import工具:cqlsh命令COPY TO/FROM注意这不是cql命令。使用这组命令可以在cassandra与其他RDBMS或cassandra之间迁移数据。COPY TO/FROM支持CSV文件格式以及标准输出和输入。COPY TO/FROM命令同样支持集合数据类型。sstable2json/json2sstab

2016-07-29 16:24:58 16658 1

转载 关于linux系统端口查看和占用的解决方案

一直以来,在处理linux服务器的过程中,经常会遇到一个问题,有时候kill掉进程之后,端口被占用,新的进程一直起不来,等几十秒之后才能正常启动。所以一直也没专门来处理这个问题。最近一周频繁出现这样的情况,等待很久也不能启动新进程,总是提示端口被占用,只有重启机器才能恢复正常,这个简直是个灾难,所以下定决心要解决这个问题。查了一些资料,了解了如何查看端口占用情况和处理方法。

2016-07-29 14:29:17 965

原创 在Windows Server 2008 R2下搭建邮件服务器

首先安装DNS服务器用来解析邮件的域新建域再建立反向区域

2016-07-27 16:50:28 32552 5

原创 在Windows Server 2008 R2下搭建FTP服务

安装FTP服务开始--》管理工具--》服务器管理器安装IIS/FTP角色打开服务器管理器,找到添加角色,然后点击,弹出添加角色对话框,选择下一步选择Web服务器(IIS)右击Web服务器,选择添加角色,然后选择FTP服务,直到安装完成。在IIS中查看,如果能够右键创建FTP站点,

2016-07-27 16:14:07 25270 1

转载 在Windows Server 2008 R2下搭建FTP服务

安装FTP服务开始--》管理工具--》服务器管理器安装IIS/FTP角色打开服务器管理器,找到添加角色,然后点击,弹出添加角色对话框,选择下一步选择Web服务器(IIS),然后选择FTP服务,直到安装完成。在IIS中查看,如果能够右键创

2016-07-27 15:57:04 197

原创 centos6.5搭建FTP服务器

FTP安装# 安装vsftpdyum -y install vsftpd# 启动service vsftpd start# 开机启动chkconfig vsftpd on# 查看ftp服务状态service vsftpd status # 重启ftp服务service vsftpd restart# 关闭ftp服务service vsftpd s

2016-07-27 14:29:21 389

转载 vsftpd3种ftp登录形式:

1、anonymous(匿名帐号)使用anonymous是应用广泛的一种FTP服务器.如果用户在FTP服务器上没有帐号,那么用户可以以anonymous为用户名,以自己的电子邮件地址为密码进行登录.当匿名用户登录FTP服务器后,其登录目录为匿名FTP服务器的根目录/var/ftp.为了减轻FTP服务器的负载,一般情况下,应关闭匿名帐号的上传功能. 2、real(真实帐号)r

2016-07-27 11:21:29 919

转载 MinGW安装使用

1.    安装MinGW编译程序。下载安装管理器mingw-get-setup.ex,网址:http://sourceforge.net/projects/mingw/files/,安装好安装管理器后,将基本选项进行安装应用。安装后配置环境变量,例如将D:\MinGW\bin写入path中,如图:2.    安装gmp库。在http://gmplib.org/ 上下载gmp库,进

2016-07-25 11:46:09 1763

原创 mingW与cygwin

CygwinCygwin是一些自由软件的集合,所谓的Cygwin的官方解释是:GUN + Cygnus + windows = cygwin。Cygnus最初的时候是把gcc,gdb等这些linux平台下的编译调试等工具进行改造,使他们能够配合生成win32格式的目标文件。为了节省开发工作,他们编写了一个共享库cygwin.dll,这个库里集成了win32.api中没有的unix风格的调用

2016-07-25 11:42:20 977

转载 hadoop本地库介绍

Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。目前在Hadoop中,本地库应用在文件的压缩上面:zlibgzip在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本

2016-07-22 11:09:12 398

转载 hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比

Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFSD

2016-07-22 10:40:55 653

原创 HDFS的fs.defaultFS的端口

查看所有正在使用的端口:netstat -ntlp在hadoop2的HDFS中fs.defaultFS在core-site.xml 中配置,默认端口是8020,但是由于其接收Client连接的RPC端口,所以如果在hdfs-site.xml中配置了RPC端口9000,所以fs.defaultFS端口变为9000

2016-07-22 10:32:31 39362

原创 MySQL为用户授权

1. 创建新用户:mysql> create user hadoop IDENTIFIED by '123';2. 赋予用户远程连接和对所有表的操作权限:GRANT ALL PRIVILEGES ON *.* TO 'hadoop'@'%'IDENTIFIED BY '123' WITH GRANT OPTION;3. 更新结果:mysql> flush privileges;

2016-07-22 09:57:46 355

转载 ELKELK(ElasticSearch, Logstash, Kibana)平台介绍

1. ELK平台包括哪些工具?2. ElasticSearch如何配置和启动?3. Logstash如何配置和启动?4. Kibana如何配置和启动?ELK平台介绍在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段:以下内容来自:http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志

2016-07-22 09:08:58 765

原创 将excel中的数据导入hive

步骤一:将excel另存为txt文档(文本文件(制表符分割))假设名字为CompanyCode.txt步骤二,将该txt文件导入Linux指定目录中步骤三,转换编码格式,在指定目录下执行如下命令:piconv -f gb2312 -t UTF-8 CompanyCode.txt  >  c.txt步骤四,根据文档中的列,创建表,建表语句如下:hive> create table

2016-07-20 13:52:10 9216

原创 hive删除表错误:FAILED: SemanticException Unable to fetch table user_info. For direct MetaStore DB connect

今天再配置hive与mysql的时候 创建表可以完美运行,但是在删除的时候出现了一下错误hive> show tables    > ;OKtestTime taken: 0.403 seconds, Fetched: 1 row(s) hive> drop table test;FAILED: Execution Error, return code 1 from org.apa

2016-07-18 18:20:47 8813 1

原创 Hive学习之HiveServer2服务端配置与启动

Hive提供了轻客户端的实现,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求,取回结果。HiveServer或者HiveServer2都是基于Thrift的,但HiveSever有时被称为Thrift server,而HiveServer2却不会。既然

2016-07-16 16:43:48 4866

原创 hive中Table与External Table的去别

Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面

2016-07-16 15:22:13 3830 1

原创 hive中Buckets详解

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;对应hash 值为 20 的 HDFS 目录为:/wh/

2016-07-16 15:19:17 2673

原创 hive中Partition详解

在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US;对应于 ds = 20090801, ctry =

2016-07-16 15:15:58 9374

原创 hive体系结构

用户接口:包括 CLI,Client,WUI元数据存储:通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Serve

2016-07-16 15:12:18 343

原创 hive与HBase整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面进行hql查询。让Hbase和Hive能互相访问,让Hadoop/Hbase/Hive协同工作,合为一体。 首先需要把hive/lib下的hbase包替换成安装的hbase的,需要如下几下:hbase-client-1.2.0.jarhba

2016-07-16 14:54:31 994

原创 查看HDFS上存储的hive表

[hadoop@Master1 hadoop-2.6.4]$ bin/hadoop dfs -lsr /user/hiveDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.lsr: DEPRECATED: Please

2016-07-16 14:07:24 1982

原创 将外部数据文件导入到hive中

hive> create table scores(id int, score int)    > row format delimited    > fields terminated by ','    > stored as textfile;hive> load data local inpath '/home/bruce/study/perl/score.text

2016-07-16 14:03:26 1015

原创 hive 创建表详解

hive> create table studyinfo(id int, age int)    > row format delimited    > fields terminated by ','    > stored as textfile;OKTime taken: 2.666 seconds[ROW FORMATDELIMITED]关键字,是用来设置创

2016-07-16 13:50:51 8533

原创 hive启动错误:[ERROR] Terminal initialization failed; falling back to unsupported

错误内容:[hadoop@Master1 bin]$ ./hiveLogging initialized using configuration in jar:file:/home/hadoop/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties[ERROR] Terminal initi

2016-07-16 13:10:05 890 1

原创 hive 中日志的存放位置

目前hive启动无法成功,想查看下hive的日志定位问题,但发现hive的安装目录下并没有hive的日志,后来经过在网上谷歌发现:Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了

2016-07-16 12:59:34 25777 1

转载 Navicat for oracle 提示 cannot load OCI DLL,126 193的解决方法

一、cannot load OCI DLL,126解决方法:工具->选项->OCI 选择oracle安装目录下bin里面的oci.dll二 在Win7下安装了Oracle 11g R2,在用Navicat去连接Oracle时,提示以下错误:Cannot load OCI DLL, 126: Instant Client package is required for Baic an

2016-07-16 11:40:00 553

转载 shell中数组的基本用法

「1」数组初始化假设数组名为ARR,则初始化的一种方法是:1ARR=(2 4 6 8)其中,括号里的各项使用空格来分隔。初始化数组的另一种方法是,用其他命令输出的结果来填充到数组中,例如把 ls 命令输出的文件列表填充到数组中:12345ARR=(`l

2016-07-15 17:12:12 1206

原创 shell 中判断值是否已经在数组中

版权声明:本文为博主原创文章,未经博主允许不得转载。1.echo "${array[@]}" | grep -wq "$var" &&  echo "Yes" || echo "No"2.for i in ${array[@]}do   [ "$i" == "$var" ] && echo "yes"done3.test_

2016-07-15 16:52:03 28004

原创 shell比较 两个字符串是否相等?

只需要一个等号吧。#!/bin/shvar1="xxx"var2="yyy"if [ "$var1" = "$var2" ]; thenecho "The same!"elseecho "Different!"fi

2016-07-15 16:51:05 8250

原创 shell 脚本中for循环遍历数组

PV_Name=$(pvdisplay | grep 'PV Name' | awk '{print $NF}')array_name=($PV_Name)for a in ${array_name[*]}dopv_name=$(pvdisplay ${a} | grep 'PV Name' | awk '{print $NF}')pv_size=$(pvdisplay ${a

2016-07-15 12:13:07 9920

原创 shell去掉最后一个字符

387691,387710,387720,387817,387922,388067,如何搞掉最后一个,? 简单快捷的?sed 's/.$//'awk '{sub(/.$/,"")}1'awk '{printf $0"\b \n"}' ufile

2016-07-15 11:34:55 47232

原创 Linux shell脚本判断输入目录是否存在,并输出目录所在磁盘使用量

#!/bin/bash#echo "Please enter the seafile-data directory:"#read DIRECTORY#df -h $DIRECTORY |awk '{print$1,$2,$4}'if [ ! -d $1 ]then  echo "Error: The directory does not exist!"else  d

2016-07-14 11:33:49 2354

原创 Linux shell脚本学习资料

LINUX SHELL脚本攻略笔记[速查]http://wklken.me/posts/2013/07/04/note-of-linux-shell-scripting-cookbook.htmlLinux shell教程:http://c.biancheng.net/cpp/view/7002.html

2016-07-14 11:29:10 723

原创 df 查看磁盘使用情况输出换行

linux df输出有时候会发生换行[root@oracle6 ~]# dfFilesystem           1K-blocks      Used Available Use% Mounted on/dev/mapper/vg_oracle6-lv_root                      51606140  47447392   1537308  97% /

2016-07-14 11:25:27 1347

华为数据之道知识总结.xmind

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库,最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除