只有光头才能强-CSDN博客

转载归因分析(Attribution Analysis)模型解析

一、什么是归因分析？在复杂的数据时代，我们每天都会面临产生产生的大量的数据以及用户复杂的消费行为路径，特别是在互联网广告行业，在广告投放的效果评估上，往往会产生一系列的问题：哪些营销渠道促成了销售？他们的贡献率分别是多少？而这些贡献的背后，是源自于怎样的用户行为路径而产生的？如何使用归因分析得到的结论，指导我们选择转化率更高的渠道组合？归因分析(Attribution Analysis)要解决的问题就是广告效果的产生，其功劳应该如何合理的分配给哪些渠道。你可能第一反应就是：当然是我点了

2021-11-03 16:13:00 3844

转载看过上百部片子的这个人教你视频标签算法解析

随着内容时代的来临，多媒体信息，特别是视频信息的分析和理解需求，如图像分类、图像打标签、视频处理等等，变得越发迫切。目前图像分类已经发展了多年，在一定条件下已经取得了很好的效果。本文因实际产品需求，主要探讨一下视频打标签的问题。查阅了部分资料，笔者拙见，打标签问题无论是文本、图像和视频，涉及到较多对内容的“理解”，目前没有解决得很好。主要原因有以下一些方面，标签具有多样性，有背景内容标签，细节内容标签，内容属性标签，风格标签等等；一些标签的样本的实际表现方式多种多样，样本的规律不明显则不利于模型学习；标签

2021-03-18 09:48:24 408

转载 Java日期格式化YYYYMMdd与yyyyMMdd的区别

public static void main(String[] args) { //YYYY 是表示：当天所在的周属于的年份，一周从周日开始，周六结束，只要本周跨年，那么这周就算入下一年。 //2019-12-29至2020-1-4跨年周 Calendar calendar = Calendar.getInstance(); //2019-12-28 calendar.set(2019, Calendar.DECEMBER,

2020-12-27 19:15:40 8648 1

转载 win10彻底禁用chrome自动升级方法

我们做法是：清空Update文件夹，并设置权限，让chrome没有权限改这个文件夹。原理：以往各种方法禁用chrome自动升级不成功，它有各种方法来升级谷歌，但一定是用update里的升级程序来升级的，你可删除里面的文件，但是它会直接生成，我们切断这一步，只要它没法在里面生成程序，那么它就无法升级了。System权限介绍：系统权限，里面最高的权限，administrator权限也是它赋予的，所以我们来把它对于这个文件夹的控制全部设置为拒绝，那么就没有任何程序可以来更改这个文件夹了。具体做法如下：首

2020-12-19 12:38:45 5483 2

转载 RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中，DataSet会逐步取代RDD和Da

2020-12-12 10:48:52 378

转载 Kafka消费者分区分配策略RangeAssignor、RoundRobinAssignor和StickyAssignor

引言按照Kafka默认的消费逻辑设定，一个分区只能被同一个消费组（ConsumerGroup）内的一个消费者消费。假设目前某消费组内只有一个消费者C0，订阅了一个topic，这个topic包含7个分区，也就是说这个消费者C0订阅了7个分区，参考下图（1）。此时消费组内又加入了一个新的消费者C1，按照既定的逻辑需要将原来消费者C0的部分分区分配给消费者C1消费，情形上图（2），消费者C0和C1各自负责消费所分配到的分区，相互之间并无实质性的干扰。接着消费组内又加入了一个新的消费者C2，如此消费者C0、

2020-12-11 13:14:14 178

原创 2020年：maven配置最新阿里云镜像，以及在IDEA中的设置

记得当初学习Maven的时候，由国外的中央仓库切换为阿里云镜像之后，用起来是辣么地丝滑~不过最近一段时间，Maven却总是出现一些问题，本地库里总是出现一些**.lastUpdated**文件，类似于下面这种。一开始以为是网络的原因，并没有很重视。直至昨晚，pom再次飘红，研究了一下，才发现问题的根源所在。通过查阅资料得知：阿里云的Maven镜像已经做了https升级和仓库细化，以前的配置方式已失效！原来的镜像配置：<mirror> <id>nexus-aliy

2020-12-01 14:47:30 11630 10

原创 Hadoop解决数据倾斜方法

1. 提前在 map 进行 combine，减少传输的数据量在 Mapper 加上 combiner 相当于提前进行 reduce，即把一个 Mapper 中的相同 key 进行了聚合，减少 shuffle 过程中传输的数据量，以及 Reducer 端的计算量。如果导致数据倾斜的 key 大量分布在不同的 mapper 的时候，这种方法就不是很有效了。2. 导致数据倾斜的 key 大量分布在不同的 mapper(1) 局部聚合加全局聚合。第一次在 map 阶段对那些导致了数据倾斜的 key 加上

2020-11-22 22:16:48 385

原创 MapReduce优化方法

MapReduce 优化方法主要从六个方面考虑：数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜问题和常用的调优参数。1. 数据输入(1) 合并小文件:在执行 MR 任务前将小文件进行合并，大量的小文件会产生大量的 Map 任务，增大 Map 任务装载次数，而任务的装载比较耗时，从而导致 MR 运行较慢。(2) 采用 CombineTextInputFormat 来作为输入，解决输入端大量小文件场景。2. Map 阶段(1) **减少溢写 (Spill) 次数：**通过调整 .

2020-11-22 21:50:15 704

原创 Yarn工作机制

1. Yarn 运行机制，如图所示。2. 工作机制详解(1) MR 程序提交到客户端所在的节点。(2) YarnRunner 向 ResourceManager 申请一个 Application。(3) RM 将该应用程序的资源路径返回给 YarnRunner。(4) 该程序将运行所需资源提交到 HDFS 上。(5) 程序资源提交完毕后，申请运行 MRAppMaster。(6) RM 将用户的请求初始化成一个 Task。(7) 其中一个 NodeManager 领取到 Task 任务。(8)

2020-11-22 21:29:49 448

原创 Yarn的基本架构(设计思想)

Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。一个ResourceManager和多个NodeManager构成了Yarn资源管理框架。他们是Yarn启动后长期运行的守护进程，来提供核心服务。Yarn 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。1 ) ResourceManager .

2020-11-22 21:11:14 644

转载 HBase 0.96版本之前读写流程、root和meta表

1. HBase读写流程上图是RegionServer数据存储关系图。上文提到，HBase使用MemStore和StoreFile存储对表的更新。数据在更新时首先写入HLog和MemStore。MemStore中的数据是排序的，当MemStore累计到一定阈值时，就会创建一个新的MemStore，并且将老的MemStore添加到Flush队列，由单独的线程Flush到磁盘上，成为一个StoreFile。与此同时，系统会在Zookeeper中记录一个CheckPoint，表示这个时刻之前的数据变更已经持久

2020-11-18 16:11:29 230 1

只有光头才能强的博客

转载归因分析(Attribution Analysis)模型解析

转载看过上百部片子的这个人教你视频标签算法解析

转载 Java日期格式化YYYYMMdd与yyyyMMdd的区别

转载 win10彻底禁用chrome自动升级方法

转载 RDD和DataFrame和DataSet三者间的区别

转载 Kafka消费者分区分配策略RangeAssignor、RoundRobinAssignor和StickyAssignor

原创 2020年：maven配置最新阿里云镜像，以及在IDEA中的设置

原创 Hadoop解决数据倾斜方法

原创 MapReduce优化方法

原创 Yarn工作机制

原创 Yarn的基本架构(设计思想)

转载 HBase 0.96版本之前读写流程、root和meta表

原创 HBase工作机制

转载 @Requestparam和@Requestbody的区别

转载 Mysql(解压版)安装、配置与卸载

原创 rpm安装MySQL时error: Failed dependencies: /usr/bin/perl和libaio错误

转载《大话数据结构》简体中文版勘误（第一、二版）

原创解决 eclipse 新建 Maven 项目时没有 web.xml 报错的问题

原创 CentOS 7.6 下源码安装 Redis-3.0.7

空空如也

空空如也