- 博客(8)
- 资源 (6)
- 收藏
- 关注
原创 循序渐进大数据组件之--Spark中cache和persist的区别
1.首先解释一下这两个方法的作用:为spark做持久化,cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速度会加速 10 倍)。缓
2020-12-29 18:07:12 545
原创 循序渐进大数据组件之--Hadoop
最近学习了Hadoop,做一些小的总结:hadoop 两大核心1.hdfs : 用于存储数据1.1 分块 block 默认128mb,1.2 不足128mb的数据,只占其本身的大小,128mb就是是一个逻辑概念1.3 block会默认复制三份,用来防治 数据丢失。1.4 hdfs不适用存大量小文件,元数据信息过多导致NameNode压力增加1.5NameNode:管理dataNode 读写数据负责元数据管理,当client端 要读取或者写入数据,会首先跟NN通信,然后NN指定你去...
2020-12-24 18:34:34 12469 2
原创 推荐算法中点击率CTR修正方法—威尔逊区间
最近学习了hive的udf,ctr修正案例,做个简单小总结:CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值,没有考虑绝对值。即,没有考虑曝光的数值大小,在曝光少的情况下,计算出的CTR其实不可靠,样本充足的情况下,才能反应真实情况举例:此三个广告的CTR 都是 0.5 ,但是按照实际表现,从置信的角度分析,应该是C > B > A,因为C的样本数更多,可信度更高。为了衡量样本数对于 CTR 置信区间的影响,科学家们引入"威尔逊(Wilson)区间"的概念。
2020-12-21 14:05:48 1388
转载 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子,而collect、cou
2020-12-18 10:56:28 818
原创 plsql Registration code
plsql注册码:Product Code:4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number:601769password:xs374ca这个的确比较好用,大家有其他方面需要激活的可以联系博主,博主qq:907044657...
2020-12-16 20:00:25 11947 6
转载 (0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)
本文转载自大神:橘子派的(0)【机器学习】机器学习综述与“Hello World”实战(附带5个实例)http://blog.csdn.net/sileixinhua/article/details/73611056感谢博主的文章本文结构思维导图概述友情提示:1. 对于本文中数据集,训练集,特征点,空间等基础概念,请参考周志华老师的《机器学习》第一章的内容2. Python的语法并不难理解,有编码基础的可以直接看懂,如果不懂,请参考廖雪峰老师的个人博客中Python的教学内容..
2020-12-14 15:43:34 925
原创 循序渐进大数据组件之--Hive
最近学习了一下hive,对其有一些想法,写出来分享一下,本文有些内容转自搜狐文章,文底部会贴出:目录导读:同时补充一下hive与hbase的联系与区别:拓展:hive的几个特点和用法:创建:查询:函数:存储:分区:顺便简单的说一下 sqoop:导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它
2020-12-04 15:35:14 9476
原创 禅道的下载和安装教程(Linux版)
搭建步骤1、 先下载包下载禅道包的地址:https://www.zentao.net/download/zentaopms12.4.3-80272.htmlLinux的版本和系统位数查询方法2.安装方法,推荐使用一键安装包,我的服务器是Cento 7 64位禅道安装步骤,跟着官网走就行了(几乎完全傻瓜式):https://www.zentao.net/book/zentaopmshelp/90.html3.换公司名称:https://www.zentao.ne
2020-12-03 14:23:05 602
openvino 2022.1的安装包
2023-12-04
Linux版 tomcat8.0 下载
2018-05-23
json转换时所需jar
2018-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人