Will Cui-CSDN博客

原创 Flink实践代码-DataStream 增加 watermark，并做窗口统计

DataStream 中增加 WaterMark

2024-04-07 16:13:32 988 1

原创 Flink实践代码-FlinkSQL使用 Join 完成表关联

Flink SQL Join

2024-04-01 17:38:45 484

原创 Flink实践代码-TableAPI 与 DataStream 互转

Flink tableAPI2DataStream

2024-03-29 17:53:39 1017 1

原创业务数仓的监控与优化

数据仓库的建设不是一蹴而就、一尘不变的，而是一个持续的过程，需要随着业务的变化而不断地进行衍进与迭代。它与业务一样在不断地生长和进化。在数据仓库建设过程中，参与建设的人员能力参差不齐，就会导致数仓在建设过程中多少存在一些问题，这种问题在初期由于没有下游或下游较少并不会有太大的影响，但经过长期的积累和应用问题就会被逐步放大，最终带来性能的影响与生产的延迟。

2024-01-14 17:22:16 1236

原创将博客搬至CSDN

为了确认是您本人在申请搬家，请在原博客发表一篇标题为《将博客搬至CSDN》的文章，并将文章地址填写在上方的"搬家通知博文地址"中。

2017-02-10 11:40:10 299

sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.10.35:1521:yidugov --username MAYOR --password yiducloud --table TEMP_BAO_20161108 --fields-terminated-by '\t' -m 1 --hive-table yidugov.

2017-02-10 11:40:07 388

原创 docker 创建hadoop集群

创建dockfile创建docker 目录并指定docker pool 大小mkdir -p /docker/docker/devicemapper/devicemapperln -s /docker/docker/ dockerdd if=/dev/zero of=/var/lib/docker/devicemapper/devicemapper/data bs=1G count

2017-02-10 11:40:04 509

原创 docker dockerfile 创建容器

#!/bin/shrm -rf /docker/hadoop*mkdir /docker/hadoop-basemkdir /docker/hadoop-jdkmkdir /docker/hadoop-hadoopmkdir /docker/hadoop-mavenmkdir /docker/hadoop-scalamkdir /docker/hadoop-sparkmkdir /docker/h

2017-02-10 11:40:01 1731 1

原创 docker扩容

docker启动状态下查看/dev/mapper/目录下内容修改的大小=250*1024*1024*1024/512=524288000 dmsetup table docker-8:5-26738692-7e4658534caa45369bf7b504e7a9e65f4b7a78adce9284221aa4b9e66497044becho 0 524288000 thin 253:0 49 |

2017-02-10 11:39:58 641

原创 MySQL安装

1、groupadd mysql ## 添加一个mysql组2、useradd -r -g mysql mysql ## 添加一个用户3、解压缩下载的包，tar -xzvf /data/software/mysql-5.7.13-linux-glibc2.5-x86_64.tar.gz4、然后 mv 解压后的包 mysql ##相当于重命名5、 chown -R mysql:

2017-02-10 11:39:55 270

原创 Hive 安装

以下操作在hdpsrc3 节点上操作一，下载安装包1，下载hive http://mirrors.hust.edu.cn/apache/ 得到apache-hive-1.1.0.tar.gz ，放到该目录下 /home/hdpsrc/ 2，下载mysql http://dev.mysql.com/downloads/mysql/5.5.html#downloads 得到 mysql-

2017-02-10 11:39:52 266

原创 Python Http请求

#!-*-coding=UTF-8-*-import urllibimport urllib2file=open('d:\diagnose_info.txt','r')guiyi=open('d:\data\guiyi.txt','a')num=0for i in file.readlines(): try: url= 'http://172.16.124.20:8188/no

2017-02-10 11:39:49 510

原创查看Linux服务器序列号

linux系统查看主机序列号#dmidecode -t 1System Information Manufacturer: IBM Product Name: System x3650 M3 -[7945I01]- Version: 00 Serial Number: 99B0340 UUID: E5248D38-72C3-11

2017-02-10 11:39:46 12777

原创 Hadoop 应用集群配置

1.修改集群配置文件vim /etc/profileexport JAVA_HOME=/usr/local/bigdata/jdkexport HADOOP_HOME=/usr/local/bigdata/hadoopexport PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/binsource /etc/profile配置免登陆cd /root/.ssh/rm -

2017-02-10 11:39:43 203

原创 Hive学习

加载数据：加载本地数据：load data local inpath "/tmp/olap_patient" into table olap_patient加载HDFS数据：load data inpath "hdfs://yidu/tmp/olap_patient" into table olap_patient查询json数据：select get_json_object(olap_patie

2017-02-10 11:39:40 211

原创 Hadoop 集群安装

Hadoop 应用集群配置1.修改集群配置文件vim /etc/profileexport JAVA_HOME=/usr/local/bigdata/jdkexport HADOOP_HOME=/usr/local/bigdata/hadoopexport PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/binsource /etc/profile1.配置networ

2017-02-10 11:39:37 208

原创 Hadoop+Hive

安装Hadoop详见之前博客。安装Hive：1.下载Hive：http://apache.fayea.com/hive/hive-2.0.0/apache-hive-2.0.0-bin.tar.gz2.解压缩：tar -zxvf apache-hive-2.0.0-bin.tar.gz -C /usr/local/bigdata/3.进入conf 将 hive-env.sh.template 更名

2017-02-10 11:39:35 395

原创 Python 爬虫

一，获取整个页面数据首先我们可以先获取要下载图片的整个页面信息。getjpg.py#coding=utf-8import urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmlhtml = getHtml("http://tieba.baidu.com/p

2017-02-10 11:39:32 243

原创 Python 爬虫

一，获取整个页面数据首先我们可以先获取要下载图片的整个页面信息。getjpg.py#coding=utf-8import urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmlhtml = getHtml("http://tieba.baidu.com/p

2017-02-10 11:39:29 271

原创 Oracle OLAP

前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构，以及事实表（Fact Table）和维表（Dimension Table）的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式，而真正体现其在分析上的优势还需要基于模型的有效的操作和处理，也就是OLAP（On-line Analytical Processing，联机分析处理）。数据立方体　　关于数据立方

2017-02-10 11:39:25 478

原创 SQL表达式运行顺序

sql语法的分析是从右到左一、sql语句的执行步骤：1）语法分析，分析语句的语法是否符合规范，衡量语句中各表达式的意义。2）语义分析，检查语句中涉及的所有数据库对象是否存在，且用户有相应的权限。3）视图转换，将涉及视图的查询语句转换为相应的对基表查询语句。4）表达式转换，将复杂的 SQL 表达式转换为较简单的等效连接表达式。5）选择优化器，不同的优化器一般产生不同的“执行计划”6）选择连接方式

2017-02-10 11:39:23 306

原创 SQLLOAD

SqlLoader导入数据 (2012-04-28 14:57:52)转载▼标签： it分类： Oracle1、打开要导出为oracle的Excel,将Excel文件保存为test.txt文件（文件->另存为）2、创建SQL*Loader输入数据所需要的文件，均保存到C:，用记事本编辑：控制文件：input.ctl，内容如下：　load data　　　　　　　　　--1、控制文件标识　inf

2017-02-10 11:39:20 5967

原创 hadoop Zookeeper hbase

http://www.cnblogs.com/zemliu/p/3824629.html一定要格式化namenode删除/home/spark/dfs/name 及/home/spark/dfs/data 下所有文件执行hdfs namenode -formatHadoop + ZK + HBase 环境搭建Hadoop 环境搭建参考资料: http://hadoop.apache.org/doc

2017-02-10 11:39:17 404

原创 Hadoop+hbase+zookeeper+spark+sqoop

单机环境安装Hadoop+hbase+zookeeper+spark+sqoop软件：maven bin version:3.3.9 hadoop bin version:2.7.1hbase bin version:1.1.2ojdbc6scala scala-2.11.7.tgzSpark spark-1.5.2-bin-hadoop2.6.tgzzookeeper 3.4.7jdk

2017-02-10 11:39:14 446

原创 Hbase参数设置

hbase.rootdir这个目录是region server的共享目录，用来持久化Hbase。URL需要是'完全正确'的，还要包含文件系统的scheme。例如，要表示hdfs中的 '/hbase'目录，namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbase

2017-02-10 11:39:11 477

原创 python hbase thrift

创建hbase表:from thrift import Thriftfrom thrift.transport import TSocketfrom thrift.transport import TTransportfrom thrift.protocol import TBinaryProtocol from hbase import Hbasefrom hbase.ttypes impor

2017-02-10 11:39:08 288

原创 Hbase Standalone

This guide describes the setup of a standalone HBase instance running against the local filesystem. This is not an appropriate configuration for a production instance of HBase, but will allow you to e

2017-02-10 11:39:04 345

原创 Python thrift

# Building Apache Thrift on CentOS 6.5 2 3 Starting with a minimal installation, the following steps are required to build Apache Thrift on Centos 6.5. This example builds from source, using the

2017-02-10 11:39:01 367

原创 python 多进程

众所周知，python本身是单线程的，python中的线程处理是由python解释器分配时间片的；但在python 3.0中吸收了开源模块，开始支持系统原生的进程处理——multiprocessing.注意：这个模块的某些函数需要操作系统的支持，例如，multiprocessing.synchronize模块在某些平台上引入时会激发一个ImportError1)Process 要创建一个Proc

2017-02-10 11:38:58 351

原创 Oracle 正则表达式

下面通过一些例子来说明使用正则表达式来处理一些工作中常见的问题。 1. REGEXP_SUBSTR REGEXP_SUBSTR 函数使用正则表达式来指定返回串的起点和终点，返回与source_string 字符集中的VARCHAR2 或CLOB 数据相同的字符串。语法： --1.REGEXP_SUBSTR与SUBSTR函数相同，返回截取的子字符串 REGEXP_SUBSTR(srcstr, pa

2017-02-10 11:38:55 484

原创 Oracle 表空间使用率

SELECT total.tablespace_name, Round(total.MB, 2) AS Total_MB, Round(total.MB - free.MB, 2) AS Used_MB, Round(( 1 - free.MB / total.MB ) * 100, 2) || '%'

2017-02-10 11:38:52 326

原创 Oracle Tablespace

CREATE TABLESPACE "TS_MOBILE_DATA" DATAFILE SIZE 10737418240 AUTOEXTEND ON NEXT 524288000 MAXSIZE 32767M, SIZE 10737418240 AUTOEXTEND ON NEXT 524288000 MAXSIZE 32767M, SIZE 10737418240 AUTOEXTE

2017-02-10 11:38:50 258

空空如也

空空如也