大数据技术进阶-CSDN博客

原创大数据风控系统概述

为什么要做风控系统不做的话，会有以下风险：各种小号、垃圾账号泛滥撞库攻击、盗号、毁号、拖库等拉新 10w 留存率不到 5%百万营销费用，却增加不了用户粘性投票票数差距非常悬殊各种榜单被垃圾账号占领实物奖励被机器人领走红包被秒抢下单不付款占库存虚拟占座刷单炒信……风控场景营销活动反作弊防御现金红包奖励、优惠劵促销、电商秒杀等营销活动场景下薅羊毛、黄牛...

2020-01-19 10:14:06 4297

原创 Spark Streaming任务延迟监控及告警

概述StreamingListener 是针对spark streaming的各个阶段的事件监听机制。StreamingListener接口//需要监听spark streaming中各个阶段的事件只需实现这个特质中对应的事件函数即可//本身既有注释说明trait StreamingListener { /** Called when the streaming has been ...

2019-11-01 14:42:07 1533

作为一名应用系统开发人员，为什么要关注数据内部的存储和检索呢？首先，你不太可能从头开始实现一套自己的存储引擎，往往需要从众多现有的存储引擎中选择一个适合自己应用的存储引擎。因此，为了针对你特定的工作负载而对数据库调优时，最好对存储引擎的底层机制有一个大概的了解。今天我们就先来了解下关系型数据库MySQL和NoSQL存储引擎HBase的底层存储机制。对于一个数据库的性能来说，其数据的组织方式至关重...

2019-10-19 16:33:22 1347

原创 Kylin构建Cube过程详解

1 前言在使用Kylin的时候，最重要的一步就是创建cube的模型定义，即指定度量和维度以及一些附加信息，然后对cube进行build，当然我们也可以根据原始表中的某一个string字段（这个字段的格式必须是日期格式，表示日期的含义）设定分区字段，这样一个cube就可以进行多次build，每一次的build会生成一个segment，每一个segment对应着一个时间区间的cube，这些segme...

2019-10-16 13:36:18 1747

原创 Apache Kylin 概述

1 Kylin是什么今天，随着移动互联网、物联网、AI等技术的快速兴起，数据成为了所有这些技术背后最重要，也是最有价值的“资产”。如何从数据中获得有价值的信息？这个问题驱动了相关技术的发展，从最初的基于文件的检索、分析程序，到数据仓库理念的诞生，再到基于数据库的商业智能分析。而现在，这一问题已经变成了如何从海量的超大规模数据中快速获取有价值的信息，新的时代、新的挑战、新的技术必然应运而生...

2019-10-14 13:47:59 1309

原创苏宁 OLAP 引擎发展之路

在 QCon 北京 2019 大会上，赵云讲师做了《苏宁 OLAP 引擎发展之路》主题演讲，主要内容如下。演讲简介：对于海量大数据进行即时的多维分析，没有任何银弹。为解决苏宁复杂业务场景下的通用指标分析查询场景，我们结合各项大数据技术建立苏宁 OLAP 引擎。支持单模型百亿条 TB 级别数据的实时汇总分析和明细查询，在建设过程中，也遇到了各种各样的挑战。如何将复杂业务场景抽象化，提供平台级能...

2019-10-11 12:04:37 1235

原创基于Spark Grahpx Neo4j 实现用户社群发现

上一篇文章《知识图谱在大数据中的应用》我们介绍了知识图谱的一些概念和应用场景，今天我们就来看一个具体的应用案例了解下知识图谱的应用。用户增长对于一个APP的生存起到了至关重要的作用，没有持续的用户增长，再好的APP也不会走的长远，为了获得更多的用户，APP运营商往往会鼓励老用户拉新并给与奖励，比如趣头条的收徒模式，用户每收一个徒弟就会得到几块到十几块的现金返现，但是这种模式同时也会引起广大黑产团伙...

2019-10-11 10:17:58 2717 1

原创知识图谱在大数据中的应用

随着移动互联网的发展，万物互联成为了可能，这种互联所产生的数据也在爆发式地增长，而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上，在移动互联网时代则除了个体，这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中，只要有关系分析的需求，知识图谱就“有可能”派的上用场。说到关系的重要性，我们先来看一个有意思的理论，六度分隔理论（英语：Six Deg...

2019-10-10 13:33:58 2490

原创分布式配置中心选型

随着业务的发展、微服务架构的升级，服务的数量、程序的配置日益增多（各种微服务、各种服务器地址、各种参数），传统的配置文件方式和数据库的方式已无法满足开发人员对配置管理的要求：安全性：配置跟随源代码保存在代码库中，容易造成配置泄漏。时效性：修改配置，需要重启服务才能生效。局限性：无法支持动态调整：例如日志开关、功能开关。因此，分布式配置中心应运而生！开源项目关于分布式配置中心，网...

2019-10-09 17:49:48 1159

原创知名大厂如何搭建大数据平台&架构

今天我们来看一下淘宝、美团和滴滴的大数据平台，一方面进一步学习大厂大数据平台的架构，另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图，你就会发现，不但这些知名大厂的大数据平台设计方案大同小异，架构图的画法也有套路可以寻觅。淘宝大数据平台淘宝可能是中国互联网业界较早搭建了自己大数据平台的公司，下图是淘宝早期的 Hadoop 大数据平台，比较典型。淘宝的大数据平台基本也是分成三个部分...

2019-09-30 11:51:54 2023

转载深度好文 | 资深技术Leader曹乐：如何成为技术大牛

双生说：曹乐是典型学霸，清华本硕，多年互联网大厂研发经验，所以“资深”。我刚到新部门的时候，约各位合作部门的Leader请教，也算帮我做新岗位入职的“平稳降落”。印象最深的，就是作为技术Leader的曹乐，一点都不像技术——他和我谈对业务的理解，各个维度的见解与想法，让人印象深刻。然后，他很热情的帮我安排了他团队几个同学的1-1，帮助我了解了更多从技术视角对业务与技术团队协同、共创的思考。后来，开...

2019-09-30 10:31:50 864

原创 RedisCluster如何实现Pipeline批量模式？

上一篇文章《redis pipeline批量处理提高性能》中我们讲到redis pipeline模式在批量数据处理上带来了很大的性能提升，我们先来回顾一下pipeline的原理，redis client与server之间采用的是请求应答的模式，如下所示：Client: command1 Server: response1 Client: command2 Server: response2...

2019-06-11 10:32:03 2184

原创 RedisCluster如何实现Pipeline批量模式？

上一篇文章《[redis pipeline批量处理提高性能](https://www.cnblogs.com/xiaodf/p/10919463.html)》中我们讲到redis pipeline模式在批量数据处理上带来了很大的性能提升，我们先来回顾一下pipeline的原理，redis client与server之间采用的是请求应答的模式，如下所示：```shellClient: comma...

2019-06-11 10:29:24 1845

原创 CDH权限测试示例

1. 准备测试数据cat/tmp/events.csv 10.1.2.3,US,android,createNote10.200.88.99,FR,windows,updateNote10.1.2.3,US,android,updateNote10.200.88.77,FR,ios,createNote10.1.4.5,US,windows,updateTag

2016-10-17 14:54:45 2176 1

原创 CDH5.7配置kerberos身份认证+sentry权限管理

更多大数据技术干货，欢迎关注“大数据技术进阶”微信公众号。4. 为CDH 5集群添加Kerberos身份验证4.1 安装sentry　　1、点击“操作”，“添加服务”；　　2、选择sentry，并“继续”；3、选择一组依赖关系...

2016-10-17 14:45:47 19361

原创调用JAVA API 对 HDFS 进行文件的读取、写入、上传、下载、删除等操作

更多大数据技术干货，欢迎关注“大数据技术进阶”微信公众号。Hadoop文件系统基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件系统接口。该类是一个抽象类，通过以下两种静态工厂方法可以过去FileSystem实例：public static ...

2016-01-28 16:50:47 25670 2

原创 Spark Sql性能测试及调优

1 问题描述内存不足时group by操作失败。正常应该速度变慢，而不是失败，因为还有磁盘可用错误日志：Task：java.io.IOException: Filesystem closed atorg.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:765) atorg

2016-01-28 14:30:25 9799

转载 Spark Streaming性能调优详解

Spark Streaming提供了高效便捷的流式处理模式，但是在有些场景下，使用默认的配置达不到最优，甚至无法实时处理来自外部的数据，这时候我们就需要对默认的配置进行相关的修改。由于现实中场景和数据量不一样，所以我们无法设置一些通用的配置（要不然Spark Streaming开发者就不会弄那么多参数，直接写死不得了），我们需要根据数据量，场景的不同设置不一样的配置，这里只是给出建议，这些调优不一

2016-01-28 14:16:38 2577

原创 kafka基准测试

1、测试环境该benchmark用到了六台机器，机器配置如下l IntelXeon 2.5 GHz processor with six coresl Six7200 RPM SATA drivesl 32GB ofRAMl 1GbEthernet这6台机器其中3台用来搭建Kafka broker集群，另外3台用来安装Zookeeper及生成测试数据。6个drive

2016-01-28 14:12:44 2380

转载 hadoop配置文件参数详解

一般来说，hadoop主要有三个默认参数文件，分别为core-default.xml，hdfs-default.xml，mapred-default.xml。其它需要用户配置的参数文件为core-site.xml，hdfs-site.xml，mapred-site.xml，下面分别介绍下相关参数的含义1 core-site.xml[node1 conf]$ cat core-sit

2016-01-26 14:57:40 3875

原创 RocketMQ简介及安装

一、简介官方简介：l RocketMQ是一款分布式、队列模型的消息中间件，具有以下特点：l 能够保证严格的消息顺序l 提供丰富的消息拉取模式l 高效的订阅者水平扩展能力l 实时的消息订阅机制l 亿级消息堆积能力二、网络架构三、特性1. nameserver相对来说，nameser

2016-01-15 11:15:44 3604 2

原创 RocketMQ消费者示例程序

更多大数据技术干货，欢迎关注“大数据技术进阶”微信公众号。本博客实现了一个简单的RocketMQ消费者的示例,MQ里存储的是经过Avro序列化的消息数据，程序读取数据并反序列化后，将消息从控制台打印出来。程序通过stdin.xml配置文件获取主要参数值，stdin.xml文件内容如下：<?xml version="1.0" encoding="UTF-8"?>&l...

2016-01-15 10:36:27 8109 1

原创 RocketMQ生产者示例程序

本示例展示了一个RocketMQ producer的简单实现，通过解析文本文件获取输入数据，将数据经过Avro序列化后发送到RocketMQ。程序通过stdin.xml配置文件获取主要参数值，stdin.xml文件内容如下： rocketmq.nameserver.list 172.16.8.106:9876 rocketmq.group.id

2016-01-15 10:22:19 3168

原创 flume+kafka+smart数据接入实施手册

1. 概述本手册主要介绍了，一个将传统数据接入到Hadoop集群的数据接入方案和实施方法。供数据接入和集群运维人员参考。1.1. 整体方案 Flume作为日志收集工具，监控一个文件目录或者一个文件，当有新数据加入时，收集新数据发送给Kafka。Kafka用来做数据缓存和消息订阅。Kafka里面的消息可以定时落地到HDFS上，也可以用Spark Strea

2015-10-13 11:01:08 1534

原创线性函数拟合R语言示例

线性函数拟合（y=a+bx）1. R运行实例R语言运行代码如下：绿色为要提供的数据，黄色标识信息为需要保存的。 xydata1=data.frame(x=x,y=y) #数据存入数据框 #拟合线性函数lm.data1summary(lm.data1) #输出拟合后信息Call:lm(formula = data1$y

2015-10-13 10:45:06 19444 1

转载分布式消息队列kafka系列介绍 — 核心API介绍及实例

原文地址：http://www.inter12.org/archives/834一 PRODUCER的API1.Producer的创建，依赖于ProducerConfigpublic Producer(ProducerConfig config);2.单个或是批量的消息发送public void send(KeyedMessage message);

2015-07-21 10:55:44 841

原创将文件从一台linux机器拷贝到多台的方法

首先你所操作的各台linux机器间必须设置了ssh免密码登录，具体方法可上网查看。将文件从一台linux机器拷贝到多台分为以下几个步骤：第一步：创建脚本文件remotecopy.sh#!/bin/bashwhile getopts f: OPT;do case $OPT in f|+f) files="$OPTARG $files" ;; *) echo "

2015-07-17 10:57:32 5589

转载 Flume NG之Interceptor简介

有的时候希望通过Flume将读取的文件再细分存储，比如讲source的数据按照业务类型分开存储，具体一点比如类似：将source中web、wap、media等的内容分开存储；比如丢弃或修改一些数据。这时可以考虑使用拦截器Interceptor。　　flume通过拦截器实现修改和丢弃事件的功能。拦截器通过定义类继承org.apache.flume.interceptor.Intercepto

2015-07-01 16:43:21 1219

转载 Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志

2015-07-01 15:25:03 770

原创本地日志数据实时接入到hadoop集群的数据接入方案

1. 概述本手册主要介绍了，一个将传统数据接入到Hadoop集群的数据接入方案和实施方法。供数据接入和集群运维人员参考。1.1. 整体方案Flume作为日志收集工具，监控一个文件目录或者一个文件，当有新数据加入时，收集新数据发送给Kafka。Kafka用来做数据缓存和消息订阅。Kafka里面的消息可以定时落地到HDFS上，也可以用Spark Streaming来做实时处理，然后将处理

2015-07-01 14:27:23 4705

原创 python解析smart结构数据

2015-06-30 11:07:53 2545

原创 R语言决策树分类模型

rm(list=ls())gc()memory.limit(4000)library(corrplot)library(rpart)data_health<-read.csv("D:/smart_data0608/smart_data_section_good_15.txt",header=FALSE,sep="\t",na.strings="None")#读健康数据data_fau

2015-06-10 15:23:40 2704

原创 ssh 无密码登录

ssh 无密码登录要使用公钥与私钥。linux下可以用用ssh-keygen生成公钥/私钥对，下面我以CentOS为例。有机器A(192.168.1.155)，B(192.168.1.181)。现想A通过ssh免密码登录到B。1.在A机下生成公钥/私钥对。[chenlb@A ~]$ ssh-keygen -t rsa -P ''-P表示密码，-P '' 就表示空

2015-06-10 15:07:19 734

原创延长SparkContext初始化时间

有些应用中可能希望现在driver上运行一段java单机程序，然后再初始化SparkContext用集群模式操作java程序返回值。从而避免过早建立SparkContext对象分配集群资源，使资源长时间空闲。这里涉及到两个yarn参数： yarn.am.liveness-monitor.expiry-interval-ms 6000000

2015-06-10 10:52:27 2407

原创 java设定窗口步长,依次统计窗口内数值总和

import java.util.Arrays;public class test2 { public static void main(String[] args) { int winSize = 3; int moveStep = 2; int total = 9; System.out.println("样本为："); for(int i=0;i<total

2015-06-09 14:33:04 1333

原创循环列表的Java实现，解决约瑟夫环问题

import java.util.Scanner;/** * 循环列表的Java实现，解决约瑟夫环问题 * * @author LIU * */public class LinkedList { // 定义结点，必须是static static class Node { int data; Node next; Node(int arg1) { this.

2015-06-09 09:52:40 1928

原创将存储在本地的大量分散的小文件，合并并保存在hdfs文件系统中

import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; imp

2015-02-11 16:38:19 2084

原创 Spark读取HDFS文件，文件格式为GB2312，实现WordCount示例

import scala.Tuple2;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.input.TextInputFor

2015-02-09 11:52:34 2682

原创 java生成随机大数据文件

package iie.udps.test;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java.util.Random;pu

2015-02-09 11:48:08 3214

原创 spark读hdfs文件实现wordcount并将结果存回hdfs

package iie.udps.example.operator.spark;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.ap

2015-02-09 11:45:52 4360

ODBC访问数据库

机器学习算法总结ppt

Kafka简介.ppt

推荐系统从入门到spark案例实战

Hive编程指南[清晰，带目录版].pdf

kafka性能测试工具

空空如也