- 博客(7)
- 资源 (7)
- 收藏
- 关注
原创 机器学习先关概念
无监督学习和监督学习1 . 无监督学习(Unsupervised learning)训练样本的标记信息是未知的,目标是为了揭露训练样本的内在属性,结构和信息,为进一步的数据挖掘提供基础。聚类(clustering)降维(dimensionality reduction)异常检测(outlier detection)推荐系统(recommendation system)###1.1...
2019-10-21 11:44:56 165
原创 理解逻辑回归中的ROC曲线和KS值
1.回归和分类任务分类和回归都属于监督学习(训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签)分类预测的结果是离散的(例如预测明天天气-阴,晴,雨)回归预测的任务是连续的(例如预测明天的温度,23,24,25度)分类中比较常用的是二分类(label结果为0或1两种)2.逻辑回归不是回归从名字来理解逻辑回归.在逻辑回归中,逻辑一词是logis...
2019-10-21 11:41:42 11089
转载 线程池-拒绝策略
前言谈到java的线程池最熟悉的莫过于 ExecutorService接口了,jdk1.5新增的java.util.concurrent包下的这个api,大大的简化了多线程代码的开发。而不论你用FixedThreadPool还是CachedThreadPool其背后实现都是ThreadPoolExecutor。ThreadPoolExecutor是一个典型的缓存池化设计的产物,因为池子有大小,当...
2019-10-15 18:53:07 170
转载 java8-Lambda
1. 引言在 Java 8 以前,若我们想要把某些功能传递给某些方法,总要去写匿名类。以前注册事件监听器的写法与下面的示例代码就很像:manager.addScheduleListener(new ScheduleListener() { @Override public void onSchedule(ScheduleEvent e) { //...
2019-10-15 18:48:17 128
原创 Spark动态资源分配
Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Yarn模式下,通常使用–num-executors来指定Application使用的executors数量,而–executor-memory和–executor-cores分别用来指定每个executor所使用的内存和虚拟CPU核数。其实从Spark1.2之后,对于On Yar...
2019-10-09 17:48:52 536
原创 Spark-Yarn开启日志聚集服务
在yarn模式下,spark作业运行相关的executor和ApplicationMaster都是运行在yarn的container中的一个作业运行完了以后,yarn有两种方式来处理spark作业打印出的日志第一种是聚合日志方式(推荐,比较常用)这种方式的话,顾名思义,就是说,将散落在集群中各个机器上的日志,最后都给聚合起来,让我们可以统一查看如果打开了日志聚合的选项,即yarn.log-...
2019-10-08 19:39:26 1221
原创 Spark 调度模式-FIFO和FAIR
Spark 调度模式-FIFO和FAIRSpark中的调度模式主要有两种:FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行,后面的任务需要等待前面的任务执行。而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。Spark的调度模式可以通过spark.schedu...
2019-10-08 19:18:56 1030
atlassian-confluence-7.9.3.rar
2020-12-12
kafka-manager-1.3.3.23
2019-03-19
RedisHA主从,哨兵,集群 架构图
2019-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人