二两芝麻-CSDN博客

原创使用python 获取mysql数据并生成hive建表语句

使用python 获取mysql数据并生成hive建表语句# -*- coding: utf-8 -*-import sysreload(sys) sys.setdefaultencoding('utf-8')import refrom collections import defaultdictimport MySQLdbimport pandas as pdengine=...

2019-07-09 09:40:52 1767

原创 storm安装记录

安装：要使用storm首先要安装以下工具：python、zookeeper、zeromq、jzmq、stormpython安装3以上的版本，具体参照https://www.cnblogs.com/windinsky/archive/2012/09/25/2701851.html安装zookeeper，安装单机版即可，具体百度，会出现的问题比较少，测试安装成功一般启动没问题即可，也可以重新开...

2019-01-29 10:03:27 313

原创 Apache NiFi学习及使用的记录

Apache NiFi是什么？一个易用、强大、可靠的数据处理与分发系统传统的数据流解决方案往往会遇到以下的挑战：系统错误，包括网络错误、硬盘错误、软件崩溃，甚至是人为错误，造成了数据流处理的不稳定性；数据访问超过处理能力，当数据处理模块有某一瓶颈时，往往不能够及时处理到达的数据；系统之间的发展进度不一致，从而经常需要在生产系统中进行新数据流的添加与已有数据流的修改，并且这些改动需要更加迅...

2019-01-25 17:32:35 1458

转载抄一些大数据技术总结

作者：夏然链接：https://www.zhihu.com/question/41541395/answer/172981131来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。使用Mysql，PostgreSQL等关系型数据库，不仅用于业务查询（OLTP），也做统计分析，一般是在现有业务数据库上直接做一些分析需求。这种方式在数据量增长之后就会遇到性能问题，特别...

2019-01-25 11:38:31 364

druid是什么？Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式时序的面向olap的数据库系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。尤其是当发生代码部署、机器故障以及其他产品系统遇到宕机等情况时，Druid仍能够保持100%正常运行。创建Druid的最初意图主要是为了解决查询延迟问题，当时试图使用Hadoop来实现交互式查询分析，但是很难满足实时分析的需要。而...

2019-01-25 11:19:23 379

原创 impala学习

impala的主要组成部分：组成部分：1、Impala Daemon（守护进程impalad，核心的进程）它负责读写数据文件，接收从impala-shell、Hue、JDBC、ODBC等接口发送的查询语句，并行化查询语句和分发工作任务到Impala集群的各个节点上，同时负责将本地计算好的查询结果发送给协调器节点（coordinator node）2、Statestore （状态商店）负责和...

2019-01-23 15:38:02 1110

原创 python 报错 'gbk' codec can't encode character '\xb5' in position 7431: illegal multib

将代码放在cmd中执行时，报错 ‘gbk’ codec can’t encode character ‘\xb5’ in position 7431: illegal multib原因：在windows下面，新文件的默认编码是gbk，这样的话，python解释器会用gbk编码去解析我们的网络数据流txt，然而txt此时已经是decode过的unicode编码，这样的话就会导致解析不了erro...

2019-01-23 14:13:24 3862

转载 oracle 大数据量更新

批量更新，MERGE语句性能最好，因为它可以多块读，并且可以并行执行，但是缺点就是消耗比较多的UNDO，一旦down机死事物恢复较慢。ORDER BY ROWID 在 buffer cache 不够大的情况下性能较好好(没Merge快，因为Merge可以多块读，走ROWID只能单块读)。优点就是可以批量提交。缺点就是不能并行更新。不 ORDER BY ROWID 在 buffer cache...

2019-01-23 09:35:01 4295

原创数据分析一些思路：

1、当一个指标出现变动，如何找到是什么因素导致指标变动？思路：1、横向对比（例如：指标的同级别的部门间，公司间等类似的）2、纵向对比（例如：时间线的对比，同比，环比等）3、指标的拆分（例如：指标=客户数*订单数，客户分为老客户，新客户，客户分为各个来源等，）个人认为拆分可以找到较为深层次的原因。...

2019-01-22 16:36:08 273

原创统计学学习

最近看的东西多而杂，越学习，越是觉得自己不会的太多了，今天开始学习统计学的相关知识吧。。。电子书资源：大数据的统计学基础 https://pan.baidu.com/s/1AwT9gav5pK0xcjhgc6YchQ统计学基本概念、统计学（第三版） https://pan.baidu.com/s/1BRhZgcGuDMelSuFWx4eLLA...

2019-01-22 15:13:35 194

原创 presto学习

架构：原理：执行流程：如何使用：优化：

2019-01-20 19:10:54 318

原创 kylin学习

kylin的概念：kylin重要的术语kylin架构：kylin制作cube的步骤kylin中cube的设置：cube几种优化方式：kylin的count distinct的调优方式（步骤）参考：http://lxw1234.com/archives/2016/08/714.htm，http://lxw1234.com/archives/2016/08/712.htm答：Coun...

2019-01-18 20:32:35 431

原创 hive学习

学习日志1https://www.cnblogs.com/qingyunzong/p/8707885.html#_label0_01、什么hive？1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 S...

2019-01-15 16:46:25 564

原创 scala学习

阅读了python和scala的优缺点的文章后，发现编程语言scala在学习spark上还是绕不过去的，不求很精通，但是熟悉基本的编写和使用是必须的。

2019-01-15 15:10:41 361

原创 spark 学习

参考资料http://lxw1234.com/archives/category/spark/page/4https://www.cnblogs.com/shishanyuan/p/4699644.html

2019-01-14 17:12:38 142

原创 yarn学习

yarn 前期了解即可，只需要知道yarn是一个资源调度平台，主要负责给任务分配资源即可，yarn不仅可以给mapreduce任务调度资源，还可以为spark任务调度资源…yarn是一个公共的资源调度平台，所有满足条件的框架都可以使用yarn来进行资源调度...

2019-01-11 09:29:19 271

原创 HDFS学习

主要学习hdfs的一些命令即可，上传，下载，删除，移动，查看等命令…

2019-01-11 09:28:48 380

原创 mapreduce学习-设计思想和原理

学习思路参考学习思路按照上面文章学习，并在每个提出的问题下面做相应的备注，太多的添加链接，每天学习一点点第一章：初识Hadoop1.1 学会百度与Google不论遇到什么问题，先试试搜索并自己解决。Google首选，翻不过去的，就用百度吧。1.2 参考资料首选官方文档特别是对于入门来说，官方文档永远是首选文档。相信搞这块的大多是文化人，英文凑合就行，实在看不下去的，请参考第一步。1....

2019-01-11 09:26:04 608

转载 hadoop入门学习

2019-01-11 09:24:09 174

转载 strom和spark比较

转载https://www.cnblogs.com/yaohaitao/p/5703288.htmlSpark Streaming与Storm的应用场景对于Storm来说：1、建议在那种需要纯实时，不能忍受1秒以上延迟的场景下使用，比如实时金融系统，要求纯实时进行金融交易和分析2、此外，如果对于实时计算的功能中，要求可靠的事务机制和可靠性机制，即数据的处理完全精准，一条也不能多，一条也不...

2019-01-10 15:45:16 209

原创 django学习

1、创建projectpython django-admin.py startproject DjangoDemo如果这个不可以的话，执行python C:\Python35\Scripts\django-admin.py startproject DjangoDemo 将python的scripts目录加上执行创建project任务2、切换到project任务的目录中，执行python ma...

2019-01-07 15:05:26 215

原创 kafka学习

kafka的主要特征是什么？总共有五点1、kafka有近乎实时性的消息处理能力，即使是面对海量数据也能够高效的存储和查询，kafka将消息存储在磁盘中，在其设计理念中并不惧怕磁盘的操作，因为它是顺序读写磁盘，所以避免了随机读写磁盘带来的性能瓶颈。2、kakfa支持批量读写消息，并且对消息进行批量压缩，这样既提高了网络的效率，也提高了压缩效率3、kafka支持消息分区，每个分区中的消息保证顺序...

2019-01-07 15:02:48 150

原创数据仓库的设计想法

这个blog用来积累设计数据仓库需要考虑的一些问题：1、源系统数据调研也就是所谓的源系统数据，需要怎么调研，调研一些什么呢？目前认为需要确认业务的流程（其实就是业务流程对应的后台表的关系），因为应用系统流程变更，最好设置业务流程的文档维护业务知识，作为知识积累2、在第三范式建模和维度建模之间的选择目前主流的建模方式是维度建模，三范式建模，实体建模等，这里建议在ods层上添加第三范式...

2019-01-07 13:52:02 231

原创新建Docker Container

新建continer并assign IP地址docker run -itd -v /mnt/dba/dev-usscm-db-docker-110:/usr/local/mysql --net none --hostname dev-usscm-db-docker-110 --name dev-usscm-db-docker-110 10.168.3.58:5000/mysql_thin:20...

2019-01-04 13:15:07 477

原创 Canal + Kafka经验

canal中写入kafka的BUGkafka的默认最大消息大小是1M, canal作者也知道这个事, 所以往canal扔消息的时候, 会先做一个判断, 如果消息大小>1M, 会报错但关键是他报错说的要把kafka的配置改大, 实际上是自己做了阉割, 怨不得kafka, 我横来竖去改了n遍kafka的配置也没用目前我做的是修改了canal的源码:(GITHUB上最新版源码已经加上了这个配...

2019-01-04 13:14:09 2860

原创 Canal + Kafka安装

搭建zookeeper + kafka server参考https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart搭建containerdocker run -itd --net none --hostname dev-kafka-145 --name dev-kafka-145 spagobi /bin/bas...

2019-01-04 12:38:17 1597

原创 zookeeper学习

基本的术语：1、Architecture（架构）2、Hierarchical namespace（层次命名空间）3、Session（会话）4、Watches（监视）5、zookeeper CLI 命令行界面，要执行ZooKeeper CLI操作，首先打开ZooKeeper服务器（“bin/zkServer.sh start”），然后打开ZooKeeper客户端（“bin/zkCli.sh...

2019-01-04 10:31:56 146

原创分布式的一些概念

分布式系统的特性：CAPConsistency(all nodes see the same data at the same time)一致性（所有的节点同一时间数据相同）Availability (a guarantee that every request receives a response about whether it was successful or failed)可用性（...

2019-01-03 11:32:20 123

原创 greenplum查出表涉及到的view和创建语句

selecta.table_schema,a.table_name,a.drop_sql,a.create_sql,string_agg(‘grant ’ || rtg.privilege_type || ’ on "’ || a.table_schema || ‘"."’ || a.table_name || '" to ’ || rtg.grantee, ‘;’ ) || ‘;’ a...

2019-01-02 09:01:45 1317

原创 python3 从kafka获取数据，并解析为json格式，写入到mysql中

项目需求：将kafka解析来的日志获取到数据库的变更记录，按照订单的级别和订单明细级别写入数据库，一条订单的所有信息包括各种维度信息均保存在一条json中，写入mysql5.7中。配置信息：[Global]kafka_server=xxxxxxxxxxx:9092kafka_topic=mesconsumer_group=test100passwd = trackingport = ...

2018-12-29 08:56:44 6164

原创 linux 常用命令

1、*.tar 用 tar -xvf 解压2、*.gz 用 gzip -d或者gunzip 解压3、.tar.gz和.tgz 用 tar -xzvf 解压4、*.bz2 用 bzip2 -d或者用bunzip2 解压5、*.tar.bz2用tar -xjf 解压6、*.Z 用 uncompress 解压7、*.tar.Z 用tar -xZf 解压8、*.rar 用 unrar e解压...

2018-12-28 14:45:11 166

原创正则表达式积累

pythonresult = re.sub(’."\S*?"’,r’*’,’$.order."\32423".order."\32423"’)#替换字符串中指定开头和结尾中见的字符

2018-12-14 12:10:17 213

原创 mysql5.7 json的一些用法

配置表添加主键json里面每个表多加一层以主键作为key值insert:order_no存在追加-----json数组update tracking_orderset order_info=json_array_append(order_info, ‘$.data’, cast(’{“size”: “5”, “type”: “m”, “so_no”: “345”}’ as json)...

2018-12-04 09:02:11 448

原创 PYTHON 写日志的分割方案

import loggingimport osimport datetime#写日志logging.basicConfig(filename=os.path.join(os.getcwd(), ‘log.txt’), level=logging.WARN, filemode=‘w’,format=’%(asctime)s - %(levelname)s: %(message)s’)d...

2018-12-04 08:46:22 824

原创 linux到windows传输文件的方案

使用cwRsyncServer4工具，使用命令行将linux上文件传输到windows上1、下载工具，具体可见我上传的工具，安装2、配置工具文件rsyncd.conf [test] path = /cygdrive/c/work #传输目标文件路径（这里可能需要绝对路径，其他的没有测试，最后的目录需要在目标主机上建立起来） read only = ...

2018-11-23 09:08:42 575

转载 azkaban控制flow数量

转载https://blog.csdn.net/Mark__cao/article/details/81238255近期需求，想对Azkaban当前运行的最大flow数有所控制。flow中可以包含多个job。（默认读者熟悉azkaban）查到官网配置文件：https://azkaban.github.io/azkaban/docs/latest/#azkaban-execserver在Az...

2018-11-22 09:02:39 2550

原创通过api 获取eloqua的数据(完整版)

有一个注意点，就是代码放在服务器上时，会出现频繁请求数据时，eloqua会重定向url（[Errno 104] Connection reset by peer)），这里处理的方法是，添加循环，重新请求，当然请求的次数限制在10次内，如果十次都没有通过，则停止请求（在windows系统上没发现这个问题）import json import base64 import reque...

2018-11-15 09:49:09 1085

原创 python3（十位时间戳）时间戳获取昨天，前天等

import timeimport datetime# 今天日期today = datetime.date.today()print(today)# 昨天时间yesterday = today - datetime.timedelta(days=1)print(yesterday)# 明天时间tomorrow = today + datetime.timedelta(days=1...

2018-11-08 11:14:13 3309

原创 python3获取oracle REST API for Oracle Eloqua Marketing Cloud Service 数据

这个代码是自定义，获取客户自定义的数据import jsonimport base64import requestsimport timeurl = 'https://login.eloqua.com/id'str_encrypt= 'GenScript\manzu.shu:Shusu891002'base64_encrypt = str(base64.b64encode(str_...

2018-11-02 17:31:46 260

原创 python3 通过api获取oracle REST API for Oracle Eloqua Marketing Cloud Service 数据

通过REST API for Oracle Eloqua Marketing Cloud Service 获取数据，验证方式是Authenticate using HTTP Basic Authentication验证方式import base64import requestsimport jsonimport psycopg2# 用来操作数据库的类class GPCommand(...

2018-11-01 15:19:15 702

greenplum常用命令

字符串函数 1）字符串拼接：|| 2）字符串长度：length 3）字符串截取：substring('fsfd' from 2 for 3)、substr('fsfd',2,3) 4）字符串两头去字符：trim(' fsf')、trim(both 'x' from 'xfdsx') 5）大小写转换：upper()、lower() 6）替换字符串：replae('fsfsfsf',fs'','ab') 7）把字符串中某几个连续字符替换成指定字符：overlay('freda' placing 'fsf' from 2 for 4) 8）按照某个字符拆分字符串：split_part('adas|dada|ffr','|',2) 9）手动数据：select * from (values ('a1',3),('a2',4)) t(col,num) 10）指定字符串在字符串中的起始位置：position('as' in 'dadassa')

2018-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

greenplum常用命令

数据仓库数据字典模板

数据仓库映射关系模板

shell 检测azkaban进程

scala2.11.0版本

Rsync4.1_installer

greenplumn

navicat120_premium_cs_x64

空空如也