chuangchuangtao-CSDN博客

转载 Jstorm 初试

https://my.oschina.net/shyloveliyi/blog/789554 http://blog.csdn.net/carlislelee/article/details/37695955

2017-08-25 17:31:45 340

转载 sqoop1 常用命令及hive导入参数参考

http://www.aboutyun.com/thread-9983-1-1.html

2017-08-25 16:21:10 711

原创 sqoop1 按mysql时间字段增量同步

/data1/xinsrv/sqoop/bin/sqoop import \ --connect "jdbc:mysql://%s:3306/%s?characterEncoding=UTF-8&tinyInt1isBit=false" \ --username %s --password '%s' --hive-database %s --hive-table

2017-08-25 16:16:22 942

原创 Linux环境变量文件及配置

1.系统级：（1）/etc/profile：该文件是用户登录时，操作系统定制用户环境时使用的第一个文件，应用于登录到系统的每一个用户。该文件一般是调用/etc/bash.bashrc文件。 /etc/bash.bashrc：系统级的bashrc文件。（2）/etc/environment:在登录时操作系统使用的第二个文件,系统在读取你自己的profile前,设置环境文件的环境变量。2.用户

2017-08-25 14:35:35 318

原创【sqoop1】sqlserver 同步 hive

{SQOOP_HOME}/bin/sqoop import \ --connect 'jdbc:sqlserver://%s:1433;username=%s;password=%s;database=%s' \ --hive-database %s --hive-table %s --table %s \

2017-08-25 14:34:38 743

原创 hive文件存储格式

1.textfile(默认格式) 存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile 二进制文件,以

2017-08-25 11:25:54 258

转载 Hadoop on Docker

http://cloud.51cto.com/art/201505/477851.htm http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/DockerContainerExecutor.html http://www.cnblogs.com/liuyifeng/p/5383076.html http://blo

2017-08-25 11:24:06 267

转载 spark-submit

http://www.cnblogs.com/lujinhong2/p/4666748.html http://blog.csdn.net/wwwxxdddx/article/details/51261835

2017-08-25 10:49:50 196

原创 Hive 元数据与权限管理

/**user (操作系统) & role (hive) *通过role 管理 user*Privileges可以被授权给Users和Roles; Users可以有一个或多个角色*/# Hive 元数据表DBS --存储Hive中所有数据库的基本信息TBLS --存储Hive表、视图、索引表的基本信息SDS --保存文件存储的基本信息, 如INPUT_FORMAT、OUTPUT_FOR

2017-08-25 10:45:33 1417

转载 hadoop数据类型与java 数据类型的转换

两种方式：set方式new方式具体请参考：http://blog.csdn.net/qq_32166627/article/details/52992656

2017-08-25 10:20:45 538

原创 python 实现 FTPServer 服务

ftp/FtpServer.py#!/usr/bin/env python#coding:utf-8import sysfrom pyftpdlib.authorizers import DummyAuthorizerfrom pyftpdlib.handlers import FTPHandler, ThrottledDTPHandlerfrom pyftpdlib.servers imp

2017-08-24 18:56:15 1262

原创 python 邮件发送模板

文本内容：#!/usr/bin/env python# -*- coding=utf-8 -*-import smtplibfrom email.mime.text import MIMETextdef send_mail(to_list,sub,content): mail_host = "***" # 设置服务器 mail_user = "***" # 用户名 m

2017-08-24 18:36:43 323

原创 hue 服务占用hive service2 内存，需定时清除

命令：/data1/xinsrv/hue/build/env/bin/hue close_sessions 0 hivemore：http://gethue.com/hadoop-tutorial-hive-and-impala-queries-life-cycle/

2017-08-24 18:26:03 2141

原创 python 访问 hive2

HiveServer2为客户端在远程执行hive查询提供了接口，通过Thrift RPC来实现，还提供了多用户并发和认证功能。目前使用python的用户可以通过pyhs2这个模块来连接HiveServer2，实现查询和取回结果的操作。hive_client.py#!/usr/bin/env python#coding:utf-8import pyhs2''' hive client'''cla

2017-08-24 18:15:42 474

原创 Airflow 初试

smtp 配置：[smtp]# If you want airflow to send emails on retries, failure, and you want to use# the airflow.utils.email.send_email_smtp function, you have to configure an smtp# server heresmtp_host =

2017-08-24 17:55:07 688

原创 mr2 wordcount 源码解析

package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;i

2017-08-24 17:12:37 292

原创 hiveserver2 后台运行

启动hivemetastore： nohup hive –service metastore &启动hiveserver2： nohup hive –service hiveserver2 &more：http://blog.csdn.net/skywalker_only/article/details/38335235/

2017-08-24 11:47:04 2811

转载 mongodb 基本查询

http://www.cnblogs.com/stephen-liu74/archive/2012/08/03/2553803.html

2017-08-21 20:16:36 318

原创 kafka + spark streaming 实时读取计算 nginx 日志，存储结果到 mongodb/mysql

#!/usr/bin/env python#coding:utf-8''''''import sysimport urlparseimport reimport datetimeimport MySQLdbimport loggingfrom pymongo import MongoClientfrom pyspark import SparkContext, SparkCon

2017-08-21 20:07:45 1026

原创一个Hive UDAF 实现相邻去重

内置的两个聚合函数（UDAF）collect_list()：多行字符串拼接为一行collect_set()：多行字符串拼接为一行并去重多行字符串拼接为一行并相邻去重UDAF：Concat()concat_udaf.jarpackage com.tcc.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.apache.hadoo

2017-08-21 19:56:53 724

原创 Py-CIDecrypt

Decrypt what was encrypted in CodeIgniter using Encrypt library. #!/usr/bin/env python2.7# -*- coding: UTF-8 -*- import sysimport hashlibimport base64import ConfigParserimport mcryptreload(sys)

2017-08-21 18:11:10 206

原创 hive udf （python）

searchstr_map.py#!/usr/bin/env python#coding:utf-8import sysimport refor line in sys.stdin: line = line.strip() fields = line.split("\t") cityid = str(fields[0]) searchstr = fields[1]

2017-08-18 19:20:43 367

转载 Hive 函数参考手册

http://www.cnblogs.com/end/archive/2012/06/18/2553682.html

2017-08-18 19:08:59 223

转载 Hive 默认字段分隔符

http://blog.csdn.net/xiao_jun_0820/article/details/37649713

2017-08-18 19:06:49 12560

原创 python 进程池的使用

#!/usr/bin/env python#coding:utf-8from multiprocessing import Pooldef Func(param1, param2, param3, ...): ...if __name__ == '__main__': pool = Pool(5) #定义一个个进程的进程池 for ... : pool.app

2017-08-18 19:03:35 246

原创 python 操作 mongodb (pymongo的使用)

#!/usr/bin/env python#coding:utf-8from pymongo import MongoClientfrom pymongo import MongoReplicaSetClientif __name__ == '__main__': mongodbHostPort1 = 'mongodb://%s:%s@%s:27017,%s:27017,%s:27017

2017-08-18 18:54:05 263

原创 Hive SerDe 使用

环境：hadoop-2.7.2，hive-1.2.1RegexSerDe所需jar包：{HIVE_HOME}/lib/hive-contrib-1.2.1.jar<1>. 根据数据格式建表 CREATE TABLE if not exists dbname.tbl_name( chexing STRING, source_name STRING, brand STRING, b

2017-08-16 18:52:12 800

原创 python 日志输出格式配置

#!/usr/bin/env python#coding:utf-8import loggingif __name__=='__main__': logging.basicConfig(level=logging.DEBUG, format='%(asctime)s %(filename)s[line:%(lineno)d] %(le

2017-08-16 18:23:49 437

原创 python 写hash数据到 ssdb

#!/usr/bin/env python#coding:utf-8import pyssdbssdb = pyssdb.Client(host=ip, port=port)key = 'app'value['pv']=514ssdb.hset('hash_tbl_name',key,json.dumps(value,ensure_ascii=False))

2017-08-16 17:09:21 964

原创 python 文件读写

读文件：with open('/path/to/file', 'r') as f: print(f.read())说明：read() 一次性读取文件的全部内容read(size) 每次最多读取size个字节的内容readline() 每次读取一行内容readlines() 一次读取所有内容并按行返回list写文件：with open('/Users/michael/test.txt

2017-08-15 19:06:05 154

原创 pymongo upsert

语法：collection_useraction.collection_name.update_one({"_id":""}, {"$inc":{"pv":pv}}, upsert=True)说明：功能类似于 MySQL INSERT ON DUPLICATE KEY UPDATE

2017-08-14 21:00:43 3174

原创 MySQL INSERT ON DUPLICATE KEY UPDATE

含义：主键/唯一索引存在时更新旧行，不存在时插入新行语法：INSERT INTO table (a,b) VALUES (1,2) ON DUPLICATE KEY UPDATE b=b+1; INSERT INTO table (a,b,c) select ...from table1join table2 on ... ON DUPLICATE KEY UPDATE c=c+1;

2017-08-14 20:51:09 245

原创用 Python 编写 Hadoop MR

Hadoop 版本：2.7.2本地测试：cat input.txt | ./mapper.py 提交Hadoop：hadoop jar {HADOOP_HOME}/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar \ -file map.py -mapper 'python map.p

2017-08-14 20:29:24 1305

原创 MongoDB 同步 Hive 的两种方式

使用 DataXMongoDB-based http://blog.csdn.net/dr_guo/article/details/51698757说明： 1. 如果Mongo 文档（即记录行）字段个数不定，对确实的字段 DataX 读取不到，最后Hive 将产生错列。可通过重写mongodbreader修正。 2. MongoDB-based 方式直接连接hidden节点，使用

2017-08-10 17:52:32 3717 1

DataX ：一个异构数据源离线同步框架，通过插件体系完成数据同步过程。reader插件用于读入，writer插件用于写出，中间的framework可以定义transform插件完成数据转化的需要。Sqoop 只支持关系型数据库与HDFS/Hive 之间的数据同步， DataX 则更为丰富。目前支持的数据源有：https://github.com/alibaba/DataX/wiki/DataX-

2017-08-10 17:16:13 2689

原创 Sqoop 1 import/export (Mysql)

Sqoop : Hadoop 平台（Hdfs/Hive）与关系型数据库的数据交换/同步工具官方介绍：Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational database

2017-08-07 18:07:17 405

原创 Hive 内置自增列 UDF 的使用

Hive 版本：Apache hive-1.2.1命令：add jar ${HIVE_HOME}/lib/hive-contrib-1.2.1.jar;create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';select row_sequence(), column

2017-08-07 16:48:58 3004

SQL Server-Hadoop Connector

datax mongodbreader 加强版

空空如也