自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Alex的博客

十年+软件产品研发经验,主要为java和大数据方向,对数仓、数据治理等理论体系和项目有较多经验,目前工作担任公司数据架构师,负责数据平台产品技术选型、性能调优、框架搭建、后端核心代码开发等工作;文章内容多为总结自己工作中的经验,主要为后端java和大数据方

  • 博客(8)
  • 资源 (6)
  • 收藏
  • 关注

原创 循序渐进大数据组件之--Spark中cache和persist的区别

1.首先解释一下这两个方法的作用:为spark做持久化,cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓

2020-12-29 18:07:12 545

原创 循序渐进大数据组件之--Hadoop

最近学习了Hadoop,做一些小的总结:hadoop 两大核心1.hdfs : 用于存储数据1.1 分块 block 默认128mb,1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念1.3 block会默认复制三份,用来防治 数据丢失。1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加1.5NameNode:管理dataNode 读写数据负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去...

2020-12-24 18:34:34 12469 2

原创 推荐算法中点击率CTR修正方法—威尔逊区间

最近学习了hive的udf,ctr修正案例,做个简单小总结:CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值,没有考虑绝对值。即,没有考虑曝光的数值大小,在曝光少的情况下,计算出的CTR其实不可靠,样本充足的情况下,才能反应真实情况举例:此三个广告的CTR 都是 0.5 ,但是按照实际表现,从置信的角度分析,应该是C > B > A,因为C的样本数更多,可信度更高。为了衡量样本数对于 CTR 置信区间的影响,科学家们引入"威尔逊(Wilson)区间"的概念。

2020-12-21 14:05:48 1388

转载 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?

Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、cou

2020-12-18 10:56:28 818

原创 plsql Registration code

plsql注册码:Product Code:4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number:601769password:xs374ca这个的确比较好用,大家有其他方面需要激活的可以联系博主,博主qq:907044657...

2020-12-16 20:00:25 11947 6

转载 (0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)

本文转载自大神:橘子派的(0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)http://blog.csdn.net/sileixinhua/article/details/73611056感谢博主的文章本文结构思维导图概述友情提示:1. 对于本文中数据集,训练集,特征点,空间等基础概念,请参考周志华老师的《机器学习》第一章的内容2. Python的语法并不难理解,有编码基础的可以直接看懂,如果不懂,请参考廖雪峰老师的个人博客中Python的教学内容..

2020-12-14 15:43:34 925

原创 循序渐进大数据组件之--Hive

最近学习了一下hive,对其有一些想法,写出来分享一下,本文有些内容转自搜狐文章,文底部会贴出:目录导读:同时补充一下hive与hbase的联系与区别:拓展:hive的几个特点和用法:创建:查询:函数:存储:分区:顺便简单的说一下 sqoop:导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它

2020-12-04 15:35:14 9476

原创 禅道的下载和安装教程(Linux版)

搭建步骤1、 先下载包下载禅道包的地址:https://www.zentao.net/download/zentaopms12.4.3-80272.htmlLinux的版本和系统位数查询方法2.安装方法,推荐使用一键安装包,我的服务器是Cento 7 64位禅道安装步骤,跟着官网走就行了(几乎完全傻瓜式):https://www.zentao.net/book/zentaopmshelp/90.html3.换公司名称:https://www.zentao.ne

2020-12-03 14:23:05 602

openvino 2022.1的安装包

openvino的安装包:l_openvino_toolkit_p_2022.1.0.643_offline.sh,由于官方把这个版本的下架了,所以将这个暴露出来,供有需要的同学使用

2023-12-04

机器学习iris鸢尾花数据集

iris鸢尾花数据集,提供机器学习分类模型原始数据集

2022-12-05

64位windows jdk1.7

64位windows jdk1.7,win7、win10都支持,亲测可用,如有其它需要也可直接联系小编,907044657@qq.com

2018-08-07

Linux版 tomcat8.0 下载

linux下的tomcat 8,jsp和servlet的开发基础服务器.版本是8.0.52,需要的可以下来试试。亲测好用,关于Tomcat的其他问题也可以咨询小编

2018-05-23

Netty网络框架学习资源(珍藏版)

本课件为Netty详细教学电子书,里面包括Netty的通信协议,已经全部API和加解密方式进行了详细讲解,对新手和老手都很有帮助

2018-05-03

springboot+ajax的小例子

适合初学者,里面包括SpringBoot的例子以及thymleaf的用法及Springdate-JPA进行操作前台跟数据库,比较有帮助

2018-04-20

MySQL学习笔记

MySQL学习资料,从SQL到PLSQL全部都有,需要的同学可以看看

2018-03-23

json转换时所需jar

配置服务端所需要的jar文件,包括commons-logging commons-beanutils commons-lang ezmorph json-lib-2.4-jdk15 commons-collections-3.2.1等在内的六个资源文件jar包,关于json报错的问题直接加入这些jar包,就OK了,有什么需要可以直接联系小编

2018-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除