Alex的博客

十年+软件产品研发经验，主要为java和大数据方向，对数仓、数据治理等理论体系和项目有较多经验，目前工作担任公司数据架构师，负责数据平台产品技术选型、性能调优、框架搭建、后端核心代码开发等工作；文章内容多为总结自己工作中的经验，主要为后端java和大数据方

12月 11月 10月 09月 06月 05月 04月 03月 02月 01月

原创循序渐进大数据组件之--Spark中cache和persist的区别

1.首先解释一下这两个方法的作用：为spark做持久化，cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓

2020-12-29 18:07:12 545

原创循序渐进大数据组件之--Hadoop

最近学习了Hadoop，做一些小的总结：hadoop 两大核心1.hdfs ：用于存储数据1.1 分块 block 默认128mb，1.2 不足128mb的数据，只占其本身的大小，128mb就是是一个逻辑概念1.3 block会默认复制三份，用来防治数据丢失。1.4 hdfs不适用存大量小文件，元数据信息过多导致NameNode压力增加1.5NameNode：管理dataNode 读写数据负责元数据管理，当client端要读取或者写入数据，会首先跟NN通信，然后NN指定你去...

2020-12-24 18:34:34 12469 2

原创推荐算法中点击率CTR修正方法—威尔逊区间

最近学习了hive的udf，ctr修正案例，做个简单小总结：CTR = 点击数 / 曝光数由于原始CTR计算方式只考虑了相对值，没有考虑绝对值。即，没有考虑曝光的数值大小，在曝光少的情况下，计算出的CTR其实不可靠，样本充足的情况下，才能反应真实情况举例：此三个广告的CTR 都是 0.5 ，但是按照实际表现，从置信的角度分析，应该是C > B > A，因为C的样本数更多，可信度更高。为了衡量样本数对于 CTR 置信区间的影响，科学家们引入"威尔逊（Wilson）区间"的概念。

2020-12-21 14:05:48 1388

转载 Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像我们常用的算子map、flatMap、filter都是transformation算子，而collect、cou

2020-12-18 10:56:28 818

原创 plsql Registration code

plsql注册码：Product Code：4t46t6vydkvsxekkvf3fjnpzy5wbuhphqzserial Number：601769password：xs374ca这个的确比较好用，大家有其他方面需要激活的可以联系博主，博主qq：907044657...

2020-12-16 20:00:25 11947 6

转载（0）【机器学习】机器学习综述与“Hello World”实战（附带5个实例）

本文转载自大神：橘子派的（0）【机器学习】机器学习综述与“Hello World”实战（附带5个实例）http://blog.csdn.net/sileixinhua/article/details/73611056感谢博主的文章本文结构思维导图概述友情提示：1. 对于本文中数据集，训练集，特征点，空间等基础概念，请参考周志华老师的《机器学习》第一章的内容2. Python的语法并不难理解，有编码基础的可以直接看懂，如果不懂，请参考廖雪峰老师的个人博客中Python的教学内容..

2020-12-14 15:43:34 925

原创循序渐进大数据组件之--Hive

最近学习了一下hive，对其有一些想法，写出来分享一下，本文有些内容转自搜狐文章，文底部会贴出：目录导读：同时补充一下hive与hbase的联系与区别：拓展：hive的几个特点和用法：创建：查询：函数：存储：分区：顺便简单的说一下 sqoop：导读：对于一个事物的认识，存在几种情况1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它

2020-12-04 15:35:14 9476

原创禅道的下载和安装教程（Linux版）

搭建步骤1、先下载包下载禅道包的地址：https://www.zentao.net/download/zentaopms12.4.3-80272.htmlLinux的版本和系统位数查询方法2.安装方法，推荐使用一键安装包，我的服务器是Cento 7 64位禅道安装步骤，跟着官网走就行了（几乎完全傻瓜式）：https://www.zentao.net/book/zentaopmshelp/90.html3.换公司名称：https://www.zentao.ne

2020-12-03 14:23:05 602

openvino 2022.1的安装包

openvino的安装包：l_openvino_toolkit_p_2022.1.0.643_offline.sh，由于官方把这个版本的下架了，所以将这个暴露出来，供有需要的同学使用

2023-12-04

机器学习iris鸢尾花数据集

iris鸢尾花数据集，提供机器学习分类模型原始数据集

2022-12-05

64位windows jdk1.7

64位windows jdk1.7，win7、win10都支持，亲测可用，如有其它需要也可直接联系小编，907044657@qq.com

2018-08-07

Linux版 tomcat8.0 下载

linux下的tomcat 8，jsp和servlet的开发基础服务器.版本是8.0.52,需要的可以下来试试。亲测好用，关于Tomcat的其他问题也可以咨询小编

2018-05-23

Netty网络框架学习资源（珍藏版）

本课件为Netty详细教学电子书，里面包括Netty的通信协议，已经全部API和加解密方式进行了详细讲解，对新手和老手都很有帮助

2018-05-03

springboot+ajax的小例子

适合初学者，里面包括SpringBoot的例子以及thymleaf的用法及Springdate-JPA进行操作前台跟数据库，比较有帮助

2018-04-20

MySQL学习笔记

MySQL学习资料，从SQL到PLSQL全部都有，需要的同学可以看看

2018-03-23

json转换时所需jar

配置服务端所需要的jar文件，包括commons-logging commons-beanutils commons-lang ezmorph json-lib-2.4-jdk15 commons-collections-3.2.1等在内的六个资源文件jar包，关于json报错的问题直接加入这些jar包，就OK了，有什么需要可以直接联系小编

2018-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人