自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨鑫newlife的专栏

算法就是我的灵魂

  • 博客(11)
  • 资源 (192)
  • 收藏
  • 关注

原创 深入浅出 Otter与Canal

第一、Otter基于数据库增量日志解析,准实时同步到本机房或异地机房的Mysql/Oralce数据库,一个分布式数据库同步系统;基本工作原理图如下: 基于Canal开源产品,获取数据库增量日志数据; 典型管理系统架构,manager(WEB 管理) + node(工作节点) manager运行时推送同步配置到node节点; ...

2020-02-28 20:54:20 3078

原创 Linux Shell实现判断文件大小并清空文件内容

这里我设置的阈值是10G(可以自行修改)#!/bin/bashif [ `/bin/ls -lt /xxxx/canal.log | head -1 | /bin/awk '{print $5}'` -gt $((1024*1024*10)) ]then echo > /xxxx/canal.logfils *.log | xargs -I x -n 1 sh -c ...

2020-02-27 17:55:32 1793

原创 Linux清空目录下多个文件

ls /data_file/*.log | xargs -I x -n 1 sh -c "echo > x"

2020-02-27 17:52:46 1067

原创 grep搜索文件内容和grep搜索.gz压缩文件的内容

这里我们以搜索8723183为例 grep搜索压缩文件的内容 gzip -dc ./文件名.gz | grep “8723183” grep模糊搜索 gzip -dc ./*.gz | grep “8723183” 搜索非压缩文件 grep -rin “8723183” ./文件名.log...

2020-02-26 16:17:15 19488 1

原创 Linux下Centos查看文件的前几行和最后几行

可以使用head(查看前几行)、tail(查看末尾几行)两个命令。例如:查看/etc/profile的前10行内容,应该是:# head -n 10 /etc/profile查看/etc/profile的最后5行内容,应该是:# tail -n 5 /etc/profile如果想同时查看可以将前10行和后5行的显示信息通过输出重定向的方法保存到一个文档,这样查看文档即可一目了然。例...

2020-02-26 14:52:15 3956

原创 Java实现MapReduce处理离线日志文件

Main函数 这里的四个传入参数分别为 日志文件路径 输出数据路径(HDFS) 表名 产品名称 package xxxxx;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritabl...

2020-02-25 21:29:11 400

原创 大数据之路、阿里巴巴大数据实践读书笔记 --- 第四章、离线数据开发

阿里巴巴的数据计算层包含两大体系: 数据存储以及计算平台 离线计算平台MaxCompute 实时计算平台StreamCompute 数据整合以及管理平台 OneData 研发岗位的大致包括为: 了解需求 模型设计 ETL开发 测试 发布上线 ...

2020-02-23 01:49:01 619

原创 JAVA线程学习(二)

共两个类:第一个:package com;//军队线程//模拟作战双方的行为public class ArmyRunnable implements Runnable {//volatile保证了线程可以正确的读取其他线程写入的值//可见性volatile boolean keepRunning = true;@Overridep

2020-02-21 16:10:52 1225

原创 Mac 中使用 iterm2 上传下载文件

配置rz、szbrew install lrzsz //可能会因为网络原因无法安装下载iterm2-zmodem,可以按下面的方式在线下载,也可以到https://github.com/mmastrac/iterm2-zmodem下载cd /usr/local/binwget https://raw.github.com/mmastrac/iterm2-zmode...

2020-02-21 16:09:30 2150

原创 Python实现接收企业微信接收消息

想接收企业微信的消息,首先得开启验证信息API(GET请求)以及接收消息服务(POST请求)。GET的请求参考:企业微信验证接口API第一部分解析POST请求:并且解析msg_signature, time, nonce和消息体数据Body(如下代码中POST的部分)@app.route('/blackcat/v1/receive_task', methods=['POST',...

2020-02-19 17:02:25 9780 4

原创 Error: java.io.IOException: SQLException in nextKeyValue&SELECT command denied to user 'xxxxx'@'xxxx

报错信息如下:Error: java.io.IOException: SQLException in nextKeyValueat org.apache.sqoop.mapreduce.db.DBRecordReader.nextKeyValue(DBRecordReader.java:277)at org.apache.hadoop.mapred.MapTask$NewTr...

2020-02-11 23:17:58 2597

斯坦福文本分类朴素贝叶斯实现课程讲义2021

斯坦福文本分类朴素贝叶斯算法实现课程讲义2021

2022-06-19

An Introduction to HTAP

An Introduction to HTAP

2022-04-26

datax.tar.gz

阿里开源ETL工具DataX

2021-08-22

ImpalaJDBC41.jar

ImpalaJDBC

2021-08-22

hive_jdbc_2.6.2.1002.zip

hive_jdbc_2.6.2.1002

2021-08-22

ClouderaHiveODBC.dmg

ClouderaHiveODBC

2021-08-22

JVM内存管理知识思维导图.png

JVM内存管理知识思维导图.png

2020-05-22

深入浅出Otter与Canal.pdf

深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf深入浅出Otter与Canal.pdf

2020-02-29

weworkapi_python-master.zip

企业微信加密解密函数代码示例weworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zipweworkapi_python-master.zip

2020-01-20

实时指标计算引擎-Spark-Part_1_杨鑫_2019-12-19.pptx

实时指标计算引擎-Spark-Part_1_杨鑫

2019-12-19

Griffin数据质量管理技术调研.pdf

Griffin数据质量管理技术调研.pdf

2019-12-09

Kylin多维分析.pdf

Kylin多维分析.pdf

2019-12-05

CDH5.17版本Hue接入HBase步骤.pdf

CDH5.17版本Hue接入HBase步骤.pdfC

2019-11-28

Apache Kylin竞品分析.pdf

Apache Kylin竞品分析.pdf

2019-11-18

_bz2.cpython-36m-x86_64-linux-gnu.so

_bz2.cpython-36m-x86_64-linux-gnu.so,

2019-11-07

presto-cli-0.223-executable.jar

presto-cli-0.223-executable.jar

2019-11-07

数据仓库规范设计.pdf

数据仓库规范设计.pdf

2019-11-04

基础算法-LP算法_线性规划问题.pptx

基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx,基础算法-LP算法_线性规划问题.pptx

2019-10-17

基础算法-递归-杨鑫20191010.pptx

基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx,基础算法-递归-杨鑫20191010.pptx

2019-10-17

基础算法 - 动态规划-2019-08-01.pptx

基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx,基础算法 - 动态规划-2019-08-01.pptx

2019-10-17

KNN实现水果分类的数据集

KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集

2019-10-17

机器学习算法-神经网络LSTM

机器学习算法-神经网络.pptx

2019-09-21

ML-朴素贝叶斯-2019-07-01.pdf

ML-朴素贝叶斯-2019-07-01.pdf

2019-07-02

udfs-2.0.4-SNAPSHOT.jar

Presto的UDF函数,基本可以覆盖Hive的大多数情况。

2019-06-26

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

Python3实现KNN的三个例子(包含数据集),水果分类,识别手写数字,找相似的朋友

2019-03-06

Presto资源管理Rest API 文档

Presto资源管理Rest API 文档

2018-12-01

ACM学习路线导图

ACM学习路线导图

2018-11-14

Hadoop ResourceManager API

Hadoop ResourceManager API

2018-11-07

Kylin调研报告

Kylin (MOLAP - Multidimensional OnlineAnalytical Processing)调研报告

2018-10-29

ALL in python学习PPT

ALL in python学习PPT

2018-10-28

presto-cli

presto-cli,presto-cli,

2018-10-22

python pep8编码规范

python pep8编码规范

2018-10-17

Confluence-5.6.6-language-pack-zh_CN.jar

Confluence-5.6.6-language-pack-zh_CN.jar,防止confluence乱码的jar包

2018-09-30

AzkabanAPI接口文档汇总

AzkabanAPI接口文档汇总

2018-09-26

MachineLearning-相似度距离公式

MachineLearning-相似度距离公式

2018-09-21

Azkaban元数据库分析

Azkaban元数据库分析,

2018-09-19

Goods: Organizing Google’s Datasets

Goods: Organizing Google’s Datasets,Goods: Organizing Google’s Datasets

2018-09-06

Kudu- Storage for Fast Analytics on Fast Data

Kudu- Storage for Fast Analytics on Fast Data,Kudu- Storage for Fast Analytics on Fast Data

2017-12-21

mongodb-linux-x86_64-3.4.6

mongodb-linux-x86_64-3.4.6,很好用的客户端,请下载使用。

2017-10-17

mongo-hadoop-core-2.0.0

mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

2017-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除