自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 flink checkpoint恢复测试

测试代码order 样例类package com.stanley.checkpoint/** * Created by admin on 2020/7/7. */case class Order(id:Int,category:String,price:Double)主函数package com.stanley.checkpointimport java.util.Propertiesimport org.apache.flink.api.common.funct

2020-07-08 10:06:49 1092

原创 flink 三种方式实现wordcount

sum在对datastream keyby后使用sum函数聚合package com.stanley.wordcountimport org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}import org.apache.flink.api.scala._/** * Created by admin on 2020/7/2. */object SumWordCount {

2020-07-02 17:50:51 697

原创 flink EventTime中watermark详解

flink在对流数据进行窗口操作时,当eventtime在过了窗口时间后会进行关窗操作。然后在实际生产环境中,由于网络等各种各样的原因可能会出现迟到数据,导致数据乱序。如下图所示,圆圈里的数字代表时间,这时候如果对数据进行一个5秒的滚动窗口操作,当第6秒的数据进入时,系统会讲0-5秒的窗口关闭,这时候4秒的数据就会丢失。遇到这种情况除了调用allowedLateness和侧输出流外,还可以使用watermater...

2020-06-26 13:17:56 542

原创 使用canal 监听mysql binlog获取增量数据

配置mysqlsudo vi /etc/my.cnf[mysqld]log-bin=/var/lib/mysql/mysql-binbinlog-format=ROWserver_id=1添加canal用户,修改权限CREATE USER canal IDENTIFIED BY 'canal';GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';FLUSH PRIVILEGES;.

2020-05-24 16:39:33 1355

原创 hive拉链表详解

新增及变化数据如下图所示,2020-01-01为初始化数据,在2020-01-02的时候jacky约增加了500,数据库里又新增了lucy这个新用户。对于数据仓库来说jacky就是变化的数据,lucy就是新增的数据。如何将新增以及变化的数据导入数据仓库如果在不占用过多空间的情况下,又能在保留历史数据的同时,体现最新的状态,拉链表是一个不错的选择什么是拉链表如下图所示,前一日全量数据和当日新增以及变化的数据合并形成一张新的全量表,就像是拉链的形状。如何实现如下图所示,u

2020-05-22 16:55:13 2159 2

原创 scala和java的关联以及区别

从Hello World说起编写一段最基本的helloworld代码,然后我们对生产的class文件进行反编译,可以看到生成了两个class文件 一个是HelloWorld,一个是HelloWorld$object HelloWorld { def main(args: Array[String]): Unit = { println("Hello World!") }...

2020-05-08 15:55:20 1468 1

原创 Spring创建实例源码分析

我们知道Spring框架创建实例是通过ioc容器自动创建,那么它到底是怎么通过配置文件创建出实例的,下面从一个最基本的例子来debug分析实例创建的过程准备首先,创建一个User类并将user注入到Spring容器中去,并且在无参构造器中打印创建实例对象提示,然后创建一个测试类在main方法中创建容器User类package com.stanley.springSource;...

2020-05-02 14:57:10 249

原创 JAVA虚拟机JVM粗浅理解

JVM的概念JVM(Java Virtual Machine)顾名思义就是java虚拟机,他是在不同计算机平台中构建出来的一个虚拟计算机来实现各种功能,所以他有个很重要的特点就是平台的无关性。只要你所在的系统无论是linux,windows亦或是macOs,只要你装了jvm就可以运行java程序。举个不恰当的例子,比亚迪是汽车车厂,格力是空调厂,但是他们都改装了口罩生产线,都可以生产口罩,jv...

2020-04-11 22:41:17 354

原创 CDH配置Kerberos,通过windows浏览器访问管理页面

CDH在配置kerberos权限后,通过windows浏览器访问namenode,yarn等页面会被拒绝访问,造成这种现象的原因是因为在你访问的windows系统中没有配置kerberos客户端,导致没有权限访问。在这里我们需要安装 mit kerberos,下载地址如下:http://web.mit.edu/kerberos/dist/index.html下载安装完成后,我们配置C:\P...

2019-09-09 14:47:15 1504 1

原创 DataX 源码分析之执行文件datax.py

DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件#!/usr/bin/env python# -*- coding:utf-8 -*-import sysimport osimport signalimport subprocessimport timeimport reim...

2019-09-04 16:44:56 2619

原创 python获取时间格式为yyyy-MM-dd的时间工具类

通过调用下面的方法获取想要获得的时间,时间格式为yyyy-MM-dd# encoding: utf-8import datetimedef get_curmonth_firstday(): """ 获取当月第一天 :return: """ return datetime.date(datetime.date.today().year,datet...

2019-01-30 10:26:02 1417

原创 使用xpath包 爬取房天下信息,并存入excel

由于房天下房源并不是动态加载,属于静态页面,所以爬取起来非常简单,这是我们使用xpath 可以轻易获取信息,以下是爬取杭州新房信息源码,爬取内容为楼盘名称,地址,所在区以及价格# coding:utf-8import requests, xlwt, sysfrom lxml import etreereload(sys)sys.setdefaultencoding('utf-8')#...

2018-05-29 21:59:49 2202

原创 spark 实现共同好友查找

共同好友:求大量集合的两两交集目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。前提:好友关系是双向的输入:<person><,><friend1>< ><friend2>< >...<friendN>100,200 300 4

2018-05-20 11:49:05 1119

原创 spark screaming 模拟实战项目实例

由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2# -*- coding:utf-8 -*-import url...

2018-05-03 23:15:43 1936

原创 spark 处理网络日志 查询pv uv实例

这里我们先理解一下spark处理数据的流程,由于spark 有standalone,local,yarn等多种模式,每种模式都有不同之处,但是总体流程都是一样的,大致就是客户端向集群管理者提交作业,生成有向无环图,图中的内容包括分成几个stage,每个stage有几个task,每个task分别由哪个executor来执行,接下来的工作就是整个spark集群按照有向无环图的布置来进行,并得出结果。下...

2018-04-25 22:38:35 1127

原创 HBASE 使用java api 实现增删改查实例

我们使用windows 本地myeclipse测试程序,具体搭建教程请看https://blog.csdn.net/weixin_41407399/article/details/79763235首先创建maven 项目,并修改pom.xml,导入hbase 第三方jar包,首次会自动下载<dependency> <groupId>org.apache.hba...

2018-04-14 20:30:25 4831

原创 hadoop源码包编译验证 snappy 详细流程

下载安装依赖包yum -y install lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool openssl-devel fuse-devel cmake使用root用户安装protobuf ,进入protobuf解压路径./configuremake && make install使用root用户安装sna...

2018-04-08 13:13:11 547

原创 python 爬取微博实时热搜,并存入数据库实例

刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类似中文编码的源码,数一下正好50个,不出意外这个就是我们需要的内容,但是这一串字符加了干扰,直接把中间所有的数字25删除后解析成中文发现就是微博热搜的主题以下是完整代码#!python3#encod...

2018-04-01 10:21:39 7889 1

原创 hadoop 配置hive 详细流程

解压hive压缩包将hive目录下conf文件夹下 hive-env.sh.template 拷贝成 hive-env.sh,并增加四行内容在hive-env.sh增加四行内容exportHADOOP_HOME=/opt/modules/hadoop-2.5.0-cdh5.3.6exportHIVE_CONF_DIR=/opt/modules/hive-0.13.1-cdh5.3.6/confex...

2018-03-31 16:25:14 2385

原创 linux下使用yum命令安装mysql

首先用rmp –qa | grep mysql 查看是否有已经安装的mysql版本切换到root用户,卸载搜索出来的版本 rpm –e –nodeps mysql-libs-5.1.71-1.el6.x86_64再次查询rmp –qa | grep mysql,删除成功root用户下使用yum命令下载mysql  yum install mysql mysql-develmysql-serverm...

2018-03-31 15:31:54 4472 1

原创 myeclipse 本地远程连接hadoop 并创建maven项目

下载hadoop-eclipse-plugin-2.5.2.jar的jar包放到myeclipse 的plugin文件夹下 ,不同hadoop对应不同版本,这个jar包也可以自己编译解压hadoop-2.5.0 tar.gz压缩包到windows本地,winrar可能解压不开,可以使用好压或者360压缩软件解压打开myeclipse ,点开工具栏window-preferences 搜索hadoo...

2018-03-30 21:19:17 1092

原创 hadoop完全分布式搭建HA(高可用)

首先创建5台虚拟机(最少三台),并且做好部署规划ip地址 主机名 安装软件 进程 192.168.xx.120 master jdk,hadoop,zookeeper namenode,ZKFC,Resourcemanager 192.168.xx.121 master2 jdk,hadoop,zookeeper namenode,ZKFC,Resourcemanager 192...

2018-03-25 16:25:26 14636 5

原创 java实现升级版按键精灵

       现在一些手游可以在电脑模拟器实现操作,有一些无聊的副本手动去操作太浪费时间,网上的按键精灵功能太单一,按键时间固定又容易被识别,闲来无事写了一个java脚本实现按键时间周期设置,以及多个点的点击。       在使用按键的时候java的窗口自动切换到后台,按键无法响应,为了实现窗口后台响应我这里需要导入一个第三方jar包jintellitype,具体代码如下import java.a...

2018-03-23 20:46:35 11565 3

原创 xshell 远程登录linux配置

首先安装一个远程连接工具,我这里使用的是xshell5修改windows本地映射进入C:\Windows\System32\drivers\etc,将hosts文件复制到桌面,在原文件夹下无法修改,使用记事本打开在最下面添加映射,映射地址与linux ip地址一致,ip地址和映射名中间隔一个空格,修改完将hosts文件覆盖到原文件夹打开xshell,新建会话,名称随意填写,主机填写刚刚设置的映射名...

2018-03-23 18:09:12 1609

原创 linux 最小化安装后配置nat网络环境

最小化安装输入 ifconfig,发现没有网络,接下来需要配置网络输入vi /etc/sysconfig/network-script/ifcfg-eth0,修改文件输入service network restart 重启网络输入 ifconfig测试 ping www.baidu.com, 网络连接正常,配置成功...

2018-03-23 17:52:29 1720 1

原创 hadoop环境搭建之 linux CENTOS6.5 最小化安装步骤

安装VmwareWorkStation下载CentOS6.5 iso 镜像文件点击创建新的虚拟机,选择典型,点下一步选择稍后安装操作系统选择Linux CentOS64为选择安装路径和虚拟机名称分配50G磁盘空间, 选择将虚拟磁盘拆分多个文件选择自定义硬件安装过程先分配4G内存,网络适配器选择NAT模式(这样IP地址不会应为外网IP改变而改变)选择CentOS6.5镜像文件,并勾选启动时连接,然后...

2018-03-23 16:43:12 1458 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除