掌舵的鹰-CSDN博客

原创为什么静态方法无法调用非静态成员（方法和变量）

当New 一个对象的时候，并不是先在堆中为对象开辟内存空间，而是先将类中的静态方法（带有static修饰的静态函数）的代码加载到一个叫做方法区的地方，然后再在堆内存中创建对象。所以说静态方法会随着类的加载而被加载。当你new一个对象时，该对象存在于对内存中，this关键字一般指该对象，但是如果没有 new对象，而是通过类名调用该类的静态方法也可以。静态方法是属于类的，动态方法属于实例对象，在类加...

2018-06-28 10:58:29 13467 2

原创 java泛型介绍

1. 什么是泛型泛型类型在逻辑上看以看成是多个不同的类型，实际上都是相同的基本类型。public class GenericTest { public static void main(String[] args) { List list = new ArrayList(); list.add("qqyumidi"); list.add("c...

2018-06-20 16:40:56 386

原创样本不平衡问题

在进行分类问题的时候样本不平衡往往会导致分类器更倾向于将样本分到数量多的一类，从而导致较高的召回较低的准确率。这种情况下有以下几种解决方法（假设正样本：负样本=1000：10w）：1. 过采样 a. 简单将正样本复制n份（不推荐） b. SMOTE采样（对于SVM基本无效）2. 欠采样（会丢到一些重要的信息） a. 简单将正样本抽样1/100 b. 将负样本聚成1000类，取每个类的中心组成新...

2018-06-13 16:09:24 824

原创 Spark数据倾斜解决方法

发生数据倾斜时的常见的现象：绝大多数task执行得都非常快，但个别task执行极慢。大部分task都执行完了，但是最后几个task始终在运行。发生数据倾斜的原因：数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对...

2018-06-13 14:38:56 539

原创 Spark常见问题总结

1.java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.sql.metadata.SessionHiveMetaStoreClientspark无法知道hive的元数据的位置，所以就无法实例化对应的client。解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下 2.Spar...

2018-06-13 12:18:29 2055

原创 SVM核函数总结

1、从线性可分到线性不可分上一部分根据几何间隔最小得到了目标函数：max∣∣w∣∣1,s.t.,yi(wTxi+b)⩾1,i=1,2,...,n求∣∣w∣∣1 的最大值，相当于求21∣∣w∣∣2 的最小值，所以目标函数等价于：min21∣∣w∣∣2,s.t.,yi(wTxi+b)⩾1,i=1,2,...,n现在目标函数式二次的，约束是线性的，所以是一个凸二次规划问题，可以使用现...

2018-06-13 11:52:20 1427

原创 sparkRDD编程常用函数方法

RDD创建RDD：弹性分布式数据集。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。而在这一切背后，Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行。可以使用两种方法创建 RDD:读取一个外部数据集，val lines = sc.textFile("/path/to/README.md")在驱动器程序里分发驱动器程序中...

2018-06-13 11:47:37 1302

原创随机森林总结笔记

1.随机森林原理介绍随机森林，指的是利用多棵树对样本进行训练并预测的一种分类器。简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的。对于每棵树，它们使用的训练集是从总的训练集中有放回采样出来的，这意味着，总的训练集中的有些样本可能多次出现在一棵树的训练集中，也可能从未出现在一棵树的训练集中。在训练每棵树的节点时，使用的特征是从所有特征...

2018-06-13 11:16:19 885

原创悲观锁乐观锁

1. 悲观锁悲观锁介绍（百科）：悲观锁，正如其名，它指的是对数据被外界（包括本系统当前的其他事务，以及来自外部系统的事务处理）修改持保守态度，因此，在整个数据处理过程中，将数据处于锁定状态。悲观锁的实现，往往依靠数据库提供的锁机制（也只有数据库层提供的锁机制才能真正保证数据访问的排他性，否则，即使在本系统中实现了加锁机制，也无法保证外部系统不会修改数据）。使用场景举例：以MySQL InnoDB...

2018-06-13 10:57:01 205

原创 Tensorflow入门总结笔记

本文主要对Tensorflow做了一些梳理，主要参考了https://www.jianshu.com/p/e112012a4b2d 这篇文章1. 简介**Tensorflow **是谷歌开发的深度学习系统，用它可以很快速地入门神经网络。由 Google 开源，可以对定义在 Tensor(张量)上的函数自动求导。Tensor(张量)意味着 N 维数组，Flow(流)意味着基于数据流图的计算，Tens...

2018-06-13 10:50:47 312

原创 Redis入门总结

1. Redis简介redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各...

2018-06-13 10:43:45 286

原创排序算法常用评价指标计算方式（AUC,MAP,NDCG,MRR）

现在的排序评估指标主要包括MAP、NDCG和AUC三个指标。NDCG考虑多指标，MAP和AUC考虑单个指标。1.AUC 最直观的，根据AUC这个名称，我们知道，计算出ROC曲线下面的面积，就是AUC的值。事实上，这也是在早期 Machine Learning文献中常见的AUC计算方法。由于我们的测试样本是有限的。我们得到的AUC曲线必然是一个阶梯状的。因此，计算的AUC也就是这些阶梯下...

2018-06-13 10:40:02 25840

weixin_38405636的博客