自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 归因分析(Attribution Analysis)模型解析

一、什么是归因分析?在复杂的数据时代,我们每天都会面临产生产生的大量的数据以及用户复杂的消费行为路径,特别是在互联网广告行业,在广告投放的效果评估上,往往会产生一系列的问题:哪些营销渠道促成了销售?他们的贡献率分别是多少?而这些贡献的背后,是源自于怎样的用户行为路径而产生的?如何使用归因分析得到的结论,指导我们选择转化率更高的渠道组合?归因分析(Attribution Analysis)要解决的问题就是广告效果的产生,其功劳应该如何合理的分配给哪些渠道。你可能第一反应就是:当然是我点了

2021-11-03 16:13:00 3844

转载 看过上百部片子的这个人教你视频标签算法解析

随着内容时代的来临,多媒体信息,特别是视频信息的分析和理解需求,如图像分类、图像打标签、视频处理等等,变得越发迫切。目前图像分类已经发展了多年,在一定条件下已经取得了很好的效果。本文因实际产品需求,主要探讨一下视频打标签的问题。查阅了部分资料,笔者拙见,打标签问题无论是文本、图像和视频,涉及到较多对内容的“理解”,目前没有解决得很好。主要原因有以下一些方面,标签具有多样性,有背景内容标签,细节内容标签,内容属性标签,风格标签等等;一些标签的样本的实际表现方式多种多样,样本的规律不明显则不利于模型学习;标签

2021-03-18 09:48:24 408

转载 Java日期格式化YYYYMMdd与yyyyMMdd的区别

public static void main(String[] args) { //YYYY 是表示:当天所在的周属于的年份,一周从周日开始,周六结束,只要本周跨年,那么这周就算入下一年。 //2019-12-29至2020-1-4跨年周 Calendar calendar = Calendar.getInstance(); //2019-12-28 calendar.set(2019, Calendar.DECEMBER,

2020-12-27 19:15:40 8648 1

转载 win10彻底禁用chrome自动升级方法

我们做法是:清空Update文件夹,并设置权限,让chrome没有权限改这个文件夹。原理:以往各种方法禁用chrome自动升级不成功,它有各种方法来升级谷歌,但一定是用update里的升级程序来升级的,你可删除里面的文件,但是它会直接生成,我们切断这一步,只要它没法在里面生成程序,那么它就无法升级了。System权限介绍:系统权限,里面最高的权限,administrator权限也是它赋予的,所以我们来把它对于这个文件夹的控制全部设置为拒绝,那么就没有任何程序可以来更改这个文件夹了。具体做法如下:首

2020-12-19 12:38:45 5483 2

转载 RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RDD和Da

2020-12-12 10:48:52 378

转载 Kafka消费者分区分配策略RangeAssignor、RoundRobinAssignor和StickyAssignor

引言按照Kafka默认的消费逻辑设定,一个分区只能被同一个消费组(ConsumerGroup)内的一个消费者消费。假设目前某消费组内只有一个消费者C0,订阅了一个topic,这个topic包含7个分区,也就是说这个消费者C0订阅了7个分区,参考下图(1)。此时消费组内又加入了一个新的消费者C1,按照既定的逻辑需要将原来消费者C0的部分分区分配给消费者C1消费,情形上图(2),消费者C0和C1各自负责消费所分配到的分区,相互之间并无实质性的干扰。接着消费组内又加入了一个新的消费者C2,如此消费者C0、

2020-12-11 13:14:14 178

原创 2020年:maven配置最新阿里云镜像,以及在IDEA中的设置

记得当初学习Maven的时候,由国外的中央仓库切换为阿里云镜像之后,用起来是辣么地丝滑~不过最近一段时间,Maven却总是出现一些问题,本地库里总是出现一些**.lastUpdated**文件,类似于下面这种。一开始以为是网络的原因,并没有很重视。直至昨晚,pom再次飘红,研究了一下,才发现问题的根源所在。通过查阅资料得知:阿里云的Maven镜像已经做了https升级和仓库细化,以前的配置方式已失效!原来的镜像配置:<mirror> <id>nexus-aliy

2020-12-01 14:47:30 11630 10

原创 Hadoop解决数据倾斜方法

1. 提前在 map 进行 combine,减少传输的数据量在 Mapper 加上 combiner 相当于提前进行 reduce,即把一个 Mapper 中的相同 key 进行了聚合,减少 shuffle 过程中传输的数据量,以及 Reducer 端的计算量。如果导致数据倾斜的 key 大量分布在不同的 mapper 的时候,这种方法就不是很有效了。2. 导致数据倾斜的 key 大量分布在不同的 mapper(1) 局部聚合加全局聚合。第一次在 map 阶段对那些导致了数据倾斜的 key 加上

2020-11-22 22:16:48 385

原创 MapReduce优化方法

MapReduce 优化方法主要从六个方面考虑:数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜问题和常用的调优参数。1. 数据输入(1) 合并小文件:在执行 MR 任务前将小文件进行合并,大量的小文件会产生大量的 Map 任务,增大 Map 任务装载次数,而任务的装载比较耗时,从而导致 MR 运行较慢。(2) 采用 CombineTextInputFormat 来作为输入,解决输入端大量小文件场景。2. Map 阶段(1) **减少溢写 (Spill) 次数:**通过调整 .

2020-11-22 21:50:15 704

原创 Yarn工作机制

1. Yarn 运行机制,如图所示。2. 工作机制详解(1) MR 程序提交到客户端所在的节点。(2) YarnRunner 向 ResourceManager 申请一个 Application。(3) RM 将该应用程序的资源路径返回给 YarnRunner。(4) 该程序将运行所需资源提交到 HDFS 上。(5) 程序资源提交完毕后,申请运行 MRAppMaster。(6) RM 将用户的请求初始化成一个 Task。(7) 其中一个 NodeManager 领取到 Task 任务。(8)

2020-11-22 21:29:49 448

原创 Yarn的基本架构(设计思想)

Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。一个ResourceManager和多个NodeManager构成了Yarn资源管理框架。他们是Yarn启动后长期运行的守护进程,来提供核心服务。Yarn 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。1 ) ResourceManager .

2020-11-22 21:11:14 644

转载 HBase 0.96版本之前读写流程、root和meta表

1. HBase读写流程上图是RegionServer数据存储关系图。上文提到,HBase使用MemStore和StoreFile存储对表的更新。数据在更新时首先写入HLog和MemStore。MemStore中的数据是排序的,当MemStore累计到一定阈值时,就会创建一个新的MemStore,并且将老的MemStore添加到Flush队列,由单独的线程Flush到磁盘上,成为一个StoreFile。与此同时,系统会在Zookeeper中记录一个CheckPoint,表示这个时刻之前的数据变更已经持久

2020-11-18 16:11:29 230 1

原创 HBase工作机制

1 图示2 组件说明Client : hbase客户端,1.包含访问hbase的接口。比如,linux shell,java api。2.除此之外,它会维护缓存来加速访问hbase的速度。比如region的位置信息。Zookeeper : 1.监控Hmaster的状态,保证有且仅有⼀个活跃的Hmaster。达到高可用。2.它可以存储所有region的寻址入口。如:root表在哪⼀台服务器上。3. 实时监控HregionServer的状态,感知HRegionServer的上下线信息,并实时通知

2020-11-18 15:23:40 283 1

转载 @Requestparam和@Requestbody的区别

@Requestparam和@Requestbody的区别@Requestparam注解@RequestParam接收的参数是来自requestHeader中,即请求头。@RequestParam可以接受简单类型的属性,也可以接受对象类型。@RequestParam有三个配置参数:required 表示是否必须,默认为 true,必须。defaultValue 可设置请求参数的默认值。value 为接收url的参数名(相当于key值)。@Requestbody注解@RequestB

2020-10-07 13:21:29 1210

转载 Mysql(解压版)安装、配置与卸载

第一步:下载Mysql官网下载地址:https://dev.mysql.com/downloads/mysql/1、鼠标滑下来,找到Other Download中的 Windows (x86, 64-bit), ZIP Archive,点击其右边的Download按钮进行Mysql下载2、点击No thanks,just start my download即可进行Mysql下载3、下载完之后,解压安装包,解压路径随意(这里我解压到D:\Mysql中),在解压好的mysql-8.0.12-winx

2020-09-23 12:17:51 665

原创 rpm安装MySQL时error: Failed dependencies: /usr/bin/perl和libaio错误

错误信息如下:解决办法:#安装perl依赖yum install -y perl-Module-Install.noarchyum install -y perl

2020-08-22 10:54:24 599

转载 《大话数据结构》简体中文版勘误(第一、二版)

《大话数据结构》简体中文版勘误原文链接:https://www.cnblogs.com/cj723/archive/2011/06/15/2081574.html注:★★★、★★和★为建议马上修改,它们之间程度不同,没有星为可改可不改,不影响阅读。第一次印刷:★★ P35,第一行,有一个“+”号应该是“=”,见下图★ P38,倒数第二行,“速度其实只提高了10”,后面增加一个“倍”字。P111,第三段,第二行,“打算了Reset时”,多了一个“了”字。目录P15,同样的问题。★★★ P268

2020-05-23 09:51:32 1577

原创 解决 eclipse 新建 Maven 项目时没有 web.xml 报错的问题

1、新建项目点击 finish ,新建项目完成,此时你会发现报错。2、解决方案大功告成

2019-06-04 19:39:53 823

原创 CentOS 7.6 下源码安装 Redis-3.0.7

环境:系统版本 CentOS Linux release 7.6.1810 (Core)安装过程:1. yum 安装 gcc 相关 (centos7能上外网)yum -y install gccyum -y install gcc-c++2. 上传安装包将安装包上传到虚拟机的 /root/software 目录下3. 解压安装包tar -zxvf redis-3.0.7.ta...

2019-05-29 20:29:44 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除