2016年07月_数据文字工作者

原创 cassandra修改表的primary

现在cassandra数据库中有一张表因为同事在建表时定义错了primary key，现在需要重新修改primary key，而经过查看cql命令文档http://cassandra.apache.org/doc/cql3/CQL.html#alterTableStmt发现cassandra不支持直接修改primary key，因此需要将原表中的数据导出，之后删除原表，之后再按照修改后的表结构重新

2016-07-29 17:14:23 3519

转载 cassandra导出和导入数据

cassandra像其他RDBMS一样提供了export/import工具：cqlsh命令COPY TO/FROM注意这不是cql命令。使用这组命令可以在cassandra与其他RDBMS或cassandra之间迁移数据。COPY TO/FROM支持CSV文件格式以及标准输出和输入。COPY TO/FROM命令同样支持集合数据类型。sstable2json/json2sstab

2016-07-29 16:24:58 16757 1

转载关于linux系统端口查看和占用的解决方案

一直以来，在处理linux服务器的过程中，经常会遇到一个问题，有时候kill掉进程之后，端口被占用，新的进程一直起不来，等几十秒之后才能正常启动。所以一直也没专门来处理这个问题。最近一周频繁出现这样的情况，等待很久也不能启动新进程，总是提示端口被占用，只有重启机器才能恢复正常，这个简直是个灾难，所以下定决心要解决这个问题。查了一些资料，了解了如何查看端口占用情况和处理方法。

2016-07-29 14:29:17 973

原创在Windows Server 2008 R2下搭建邮件服务器

首先安装DNS服务器用来解析邮件的域新建域再建立反向区域

2016-07-27 16:50:28 32631 5

原创在Windows Server 2008 R2下搭建FTP服务

安装FTP服务开始--》管理工具--》服务器管理器安装IIS/FTP角色打开服务器管理器，找到添加角色，然后点击，弹出添加角色对话框，选择下一步选择Web服务器（IIS）右击Web服务器，选择添加角色，然后选择FTP服务，直到安装完成。在IIS中查看，如果能够右键创建FTP站点，

2016-07-27 16:14:07 25302 1

转载在Windows Server 2008 R2下搭建FTP服务

安装FTP服务开始--》管理工具--》服务器管理器安装IIS/FTP角色打开服务器管理器，找到添加角色，然后点击，弹出添加角色对话框，选择下一步选择Web服务器（IIS），然后选择FTP服务，直到安装完成。在IIS中查看，如果能够右键创

2016-07-27 15:57:04 211

原创 centos6.5搭建FTP服务器

FTP安装# 安装vsftpdyum -y install vsftpd# 启动service vsftpd start# 开机启动chkconfig vsftpd on# 查看ftp服务状态service vsftpd status # 重启ftp服务service vsftpd restart# 关闭ftp服务service vsftpd s

2016-07-27 14:29:21 397

转载 vsftpd3种ftp登录形式:

1、anonymous(匿名帐号)使用anonymous是应用广泛的一种FTP服务器.如果用户在FTP服务器上没有帐号,那么用户可以以anonymous为用户名,以自己的电子邮件地址为密码进行登录.当匿名用户登录FTP服务器后,其登录目录为匿名FTP服务器的根目录/var/ftp.为了减轻FTP服务器的负载,一般情况下,应关闭匿名帐号的上传功能. 2、real(真实帐号)r

2016-07-27 11:21:29 966

转载 MinGW安装使用

1. 安装MinGW编译程序。下载安装管理器mingw-get-setup.ex，网址：http://sourceforge.net/projects/mingw/files/，安装好安装管理器后，将基本选项进行安装应用。安装后配置环境变量，例如将D:\MinGW\bin写入path中，如图：2. 安装gmp库。在http://gmplib.org/ 上下载gmp库，进

2016-07-25 11:46:09 1799

原创 mingW与cygwin

CygwinCygwin是一些自由软件的集合，所谓的Cygwin的官方解释是：GUN + Cygnus + windows = cygwin。Cygnus最初的时候是把gcc，gdb等这些linux平台下的编译调试等工具进行改造，使他们能够配合生成win32格式的目标文件。为了节省开发工作，他们编写了一个共享库cygwin.dll,这个库里集成了win32.api中没有的unix风格的调用

2016-07-25 11:42:20 1008

转载 hadoop本地库介绍

Hadoop是使用Java语言开发的，但是有一些需求和操作并不适合使用java，所以就引入了本地库（Native Libraries）的概念，通过本地库，Hadoop可以更加高效地执行某一些操作。目前在Hadoop中，本地库应用在文件的压缩上面：zlibgzip在使用这两种压缩方式的时候，Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本

2016-07-22 11:09:12 406

转载 hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比

Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFSD

2016-07-22 10:40:55 658

原创 HDFS的fs.defaultFS的端口

查看所有正在使用的端口：netstat -ntlp在hadoop2的HDFS中fs.defaultFS在core-site.xml 中配置，默认端口是8020，但是由于其接收Client连接的RPC端口，所以如果在hdfs-site.xml中配置了RPC端口9000，所以fs.defaultFS端口变为9000

2016-07-22 10:32:31 39402

原创 MySQL为用户授权

1. 创建新用户：mysql> create user hadoop IDENTIFIED by '123';2. 赋予用户远程连接和对所有表的操作权限：GRANT ALL PRIVILEGES ON *.* TO 'hadoop'@'%'IDENTIFIED BY '123' WITH GRANT OPTION;3. 更新结果：mysql> flush privileges;

2016-07-22 09:57:46 366

转载 ELKELK(ElasticSearch, Logstash, Kibana)平台介绍

1. ELK平台包括哪些工具？2. ElasticSearch如何配置和启动？3. Logstash如何配置和启动？4. Kibana如何配置和启动？ELK平台介绍在搜索ELK资料的时候，发现这篇文章比较好，于是摘抄一小段：以下内容来自：http://baidu.blog.51cto.com/71938/1676798日志主要包括系统日志

2016-07-22 09:08:58 784

原创将excel中的数据导入hive

步骤一：将excel另存为txt文档（文本文件（制表符分割））假设名字为CompanyCode.txt步骤二，将该txt文件导入Linux指定目录中步骤三，转换编码格式，在指定目录下执行如下命令：piconv -f gb2312 -t UTF-8 CompanyCode.txt > c.txt步骤四，根据文档中的列，创建表，建表语句如下：hive> create table

2016-07-20 13:52:10 9245

原创 hive删除表错误：FAILED: SemanticException Unable to fetch table user_info. For direct MetaStore DB connect

今天再配置hive与mysql的时候创建表可以完美运行，但是在删除的时候出现了一下错误hive> show tables > ;OKtestTime taken: 0.403 seconds, Fetched: 1 row(s) hive> drop table test;FAILED: Execution Error, return code 1 from org.apa

2016-07-18 18:20:47 8897 1

原创 Hive学习之HiveServer2服务端配置与启动

Hive提供了轻客户端的实现，通过HiveServer或者HiveServer2，客户端可以在不启动CLI的情况下对Hive中的数据进行操作，两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求，取回结果。HiveServer或者HiveServer2都是基于Thrift的，但HiveSever有时被称为Thrift server，而HiveServer2却不会。既然

2016-07-16 16:43:48 4893

原创 hive中Table与External Table的去别

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION 后面

2016-07-16 15:22:13 3860 1

原创 hive中Buckets详解

Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；对应hash 值为 20 的 HDFS 目录为：/wh/

2016-07-16 15:19:17 2698

原创 hive中Partition详解

在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry =

2016-07-16 15:15:58 9438

原创 hive体系结构

用户接口：包括 CLI，Client，WUI元数据存储：通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算。Client 是 Hive 的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出 Hive Serve

2016-07-16 15:12:18 352

原创 hive与HBase整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面进行hql查询。让Hbase和Hive能互相访问，让Hadoop/Hbase/Hive协同工作，合为一体。首先需要把hive/lib下的hbase包替换成安装的hbase的，需要如下几下：hbase-client-1.2.0.jarhba

2016-07-16 14:54:31 1008

原创查看HDFS上存储的hive表

[hadoop@Master1 hadoop-2.6.4]$ bin/hadoop dfs -lsr /user/hiveDEPRECATED: Use of this script to execute hdfs command is deprecated.Instead use the hdfs command for it.lsr: DEPRECATED: Please

2016-07-16 14:07:24 2028

原创将外部数据文件导入到hive中

hive> create table scores(id int, score int) > row format delimited > fields terminated by ',' > stored as textfile;hive> load data local inpath '/home/bruce/study/perl/score.text

2016-07-16 14:03:26 1030

原创 hive 创建表详解

hive> create table studyinfo(id int, age int) > row format delimited > fields terminated by ',' > stored as textfile;OKTime taken: 2.666 seconds[ROW FORMATDELIMITED]关键字，是用来设置创

2016-07-16 13:50:51 8570

原创 hive启动错误：[ERROR] Terminal initialization failed; falling back to unsupported

错误内容：[hadoop@Master1 bin]$ ./hiveLogging initialized using configuration in jar:file:/home/hadoop/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties[ERROR] Terminal initi

2016-07-16 13:10:05 914 1

原创 hive 中日志的存放位置

目前hive启动无法成功，想查看下hive的日志定位问题，但发现hive的安装目录下并没有hive的日志，后来经过在网上谷歌发现：Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了

2016-07-16 12:59:34 25914 1

转载 Navicat for oracle 提示 cannot load OCI DLL,126 193的解决方法

一、cannot load OCI DLL,126解决方法：工具->选项->OCI 选择oracle安装目录下bin里面的oci.dll二在Win7下安装了Oracle 11g R2，在用Navicat去连接Oracle时，提示以下错误：Cannot load OCI DLL, 126: Instant Client package is required for Baic an

2016-07-16 11:40:00 583

转载 shell中数组的基本用法

「1」数组初始化假设数组名为ARR，则初始化的一种方法是：1ARR=(2 4 6 8)其中，括号里的各项使用空格来分隔。初始化数组的另一种方法是，用其他命令输出的结果来填充到数组中，例如把 ls 命令输出的文件列表填充到数组中：12345ARR=(`l

2016-07-15 17:12:12 1229

原创 shell 中判断值是否已经在数组中

2016-07-15 16:52:03 28070

原创 shell比较两个字符串是否相等？

只需要一个等号吧。#!/bin/shvar1="xxx"var2="yyy"if [ "$var1" = "$var2" ]; thenecho "The same!"elseecho "Different!"fi

2016-07-15 16:51:05 8288

原创 shell 脚本中for循环遍历数组

PV_Name=$(pvdisplay | grep 'PV Name' | awk '{print $NF}')array_name=($PV_Name)for a in ${array_name[*]}dopv_name=$(pvdisplay ${a} | grep 'PV Name' | awk '{print $NF}')pv_size=$(pvdisplay ${a

2016-07-15 12:13:07 9943

原创 shell去掉最后一个字符

387691,387710,387720,387817,387922,388067,如何搞掉最后一个,? 简单快捷的？sed 's/.$//'awk '{sub(/.$/,"")}1'awk '{printf $0"\b \n"}' ufile

2016-07-15 11:34:55 47349

原创 Linux shell脚本判断输入目录是否存在，并输出目录所在磁盘使用量

#!/bin/bash#echo "Please enter the seafile-data directory:"#read DIRECTORY#df -h $DIRECTORY |awk '{print$1,$2,$4}'if [ ! -d $1 ]then echo "Error: The directory does not exist!"else d

2016-07-14 11:33:49 2376

原创 Linux shell脚本学习资料

LINUX SHELL脚本攻略笔记[速查]http://wklken.me/posts/2013/07/04/note-of-linux-shell-scripting-cookbook.htmlLinux shell教程：http://c.biancheng.net/cpp/view/7002.html

2016-07-14 11:29:10 732

原创 df 查看磁盘使用情况输出换行

linux df输出有时候会发生换行[root@oracle6 ~]# dfFilesystem 1K-blocks Used Available Use% Mounted on/dev/mapper/vg_oracle6-lv_root 51606140 47447392 1537308 97% /

2016-07-14 11:25:27 1373

华为数据之道知识总结.xmind

数据治理知识体系.xmind

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

《医学信息决策与支持系统》题库

空空如也