- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 java 虚拟机 转载整理
1. JVM生命周期启动。启动一个Java程序时,一个JVM实例就产生了,任何一个拥有public static void main(String[] args)函数的class都可以作为JVM实例运行的起点。 运行。main()作为该程序初始线程的起点,任何其他线程均由该线程启动。 消亡。当程序中的所有非守护线程都终止时,JVM才退出;若安全管理器允许,程序也可以使用Runtime类或者...
2018-01-31 15:24:57 4176
原创 【机器学习】LR多分类推广 - Softmax回归 整理
1.softmax在机器学习尤其是深度学习中,softmax是个非常常用而且比较重要的函数,尤其在多分类的场景中使用广泛。他把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。首先我们简单来看看softmax是什么意思。顾名思义,softmax由两个单词组成,其中一个是max。对于max我们都很熟悉,比如有两个变量a,b。如果a>b,则max为a,反...
2018-01-28 09:21:22 3566
原创 spark rdd详解 整理
spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供A...
2018-01-24 17:49:27 3455
原创 【机器学习】常用聚类算法 整理
sparkML 常用聚类算法 http://spark.apache.org/docs/latest/mllib-clustering.html如下为 机器学习聚类算法的理论知识:在机器学习中,无监督学习一直是追求的方向,因为,这样可以更加自动化,减少人工参与等好处,而其中的聚类算法更是发现隐藏数据结构与知识的有效手段。目前如谷歌新闻等很多应用都将聚类算法作为主要的实现手段,它们能利...
2018-01-23 09:34:25 4986
原创 java OOP面向对象三大特性五大原则 + 低耦合高内聚
面向对象的三大特性是"封装、"多态"、"继承",五大原则是"单一职责原则"、"开放封闭原则"、"里氏替换原则"、"依赖倒置原则"、"接口分离原则"。什么是面向对象面向对象(Object Oriented,OO)是软件开发方法。面向对象的概念和应用已超越了程序设计和软件开发,扩展到如数据库系统、交互式界面、应用结构、应用平台、分布式系统、网络管理结构、CAD技术、人工智能等领域。面向对...
2018-01-22 15:20:14 6306
原创 【机器学习】降维算法 PCA、LDA、LLE、Laplacian EigenmapsI、SOMAP 、 MDS、SNE、TSNE
机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达...
2018-01-22 14:34:34 2496
原创 【机器学习】线性回归,多元线性回归、自回归及衡量指标
经典线性模型自变量的线性预测就是因变量的估计值。广义线性模型:自变量的线性预测的函数是因变量的估计值。常见的广义线性模型有:probit模型、poisson模型、对数线性模型等。对数线性模型里有:logistic regression、Maxinum entropy。1.线性回归原理其中,为偏置参数,M为特征数目,为基函数(径向基函数(rbf)、sigmoid基函数等),特...
2018-01-20 14:03:24 4403 2
原创 【机器学习】逻辑回归 LR 算法 整理
有了 Sigmoid 函数之后,由于其值取值范围在[0,1]。就可以将其视为类 1 的后验概率估计 p(y=1|X)。就是如果有一个测试点 x,就可以用Sigmoid函数算出来的结果当作该点 x 属于类别 1 的概率大小。于是,非常自然地,把 Sigmoid 函数计算得到的值大于等于0.5的归为类别1,小于0.5的归为类别0:1.逻辑斯蒂回归模型LR模型主要用于分类模型,细...
2018-01-20 11:38:12 2907
原创 精细化营销推广渠道分析
伴随流量成本的不断增长,精准化营销的优势日益凸显,用数据说话成为对每个市场营销人员的基本要求。 为什么要做渠道分析 1.评估推广投入产出比——流量来源分析需要在关注各个来源渠道带来流量的多少的同时,兼顾渠道所带来流量质量。即进行了多少的渠道投入,这些投入给网站带来了多少的收益。 2.分析把控用户需求——不同推广模式带来的访客,到访网站的目的也会有所不同。...
2018-01-17 10:48:50 1946
原创 Scala 伴生对象的实现原理
前言:这个面试出镜率很高,虽然咱们都会用,可是你有考虑过scala为什么这么设计么?你有考虑过大名鼎鼎的java23种设计模型,scala是怎么设计应用的么?本文主要分析伴生类和伴生对象的实现方法。所谓伴生对象, 也是一个Scala中的单例对象, 使用object关键字修饰。 除此之外, 还有一个使用class关键字定义的同名类, 这个类和单例对象存在于同一个文件中, 这个类就叫做这个单例对象...
2018-01-17 10:40:39 1669
原创 【机器学习】 SVD矩阵分解 整理
矩阵分解 (特征值/奇异值分解+SVD+解齐次/非齐次线性方程组)1.1 应用领域最优化问题:最小二乘问题 (求取最小二乘解的方法一般使用SVD) 统计分析:信号与图像处理 求解线性方程组:Ax=0或Ax=bAx=0或Ax=b 奇异值分解:可以降维,同时可以降低数据存储需求1.2 矩阵是什么矩阵是什么取决于应用场景 矩阵可以是: 只是一堆数:如果不对这堆数建立一些运算规则...
2018-01-16 10:05:56 2777
原创 【机器学习】朴素贝叶斯 Naive Bayes Classifiers 算法 整理
贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算...
2018-01-16 09:39:44 4007
转载 【机器学习】LDA算法 (主题模型算法)
随着互联网的发展,文本分析越来越受到重视。由于文本格式的复杂性,人们往往很难直接利用文本进行分析。因此一些将文本数值化的方法就出现了。LDA就是其中一种很NB的方法。 LDA有着很完美的理论支撑,而且有着维度小等一系列优点。本文对LDA算法进行介绍,欢迎批评指正。本文目录:1、Gamma函数2、Dirichlet分布3、LDA文本建模4、吉普斯抽样概率公式推导5、使用...
2018-01-14 12:17:59 23125 1
原创 SparkStreaming之读取Kafka数据
GBDT是一种集成学习算法,却和传统的Adaboost有很大的不同。回顾下Adaboost,它是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同(备注:Adaboost我会再新开日记)。CART决策树既可以用于分类也可以用于回归,决策树分为分类树和...
2018-01-12 16:17:31 6282
原创 【机器学习】熵(信息熵,联合熵,交叉熵,互信息)
机器学习中的各种熵,什么是熵?什么是交叉熵?什么是联合熵?什么是条件熵?什么是相对熵?它们的联系与区别是什么?前言:你必须知道的信息论1948年,数学家和电气工程师克劳德香农(Claude Elwood Shannon)在其开创性论文《通信的数学理论》中提出了“信息论”,这一概念。 对深度学习和人工智能的发展具有非凡的意义。那么,对于信息论大家又了解多少呢? 在本文中,Abhis...
2018-01-12 12:39:10 2121 1
原创 【机器学习】马尔可夫(Markov)预测法 整理
隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。基本理论隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向...
2018-01-11 09:46:25 20611 1
原创 java调用python的几种方法整理
一、在java类中直接执行python语句import org.python.util.PythonInterpreter;public class FirstJavaScript { public static void main(String args[]) { PythonInterpreter interpreter = new PythonInterpre...
2018-01-08 10:35:37 5471
原创 【机器学习】常用优化方法原理
在ML/DL中,有许多优化方法可以选择,只有清楚了它们的原理才能更好地选择。1、SGD随机梯度下降是最经典的方法,其思想如下图所示:首先求出m个样本的Loss的和,求这个和对于神经网络参数theta的梯度,并将该梯度除以样本数m,得到平均梯度。然后,利用反向梯度来更新参数theta。η_k是学习率,k表示第k次迭代更新。通常,学习率会随着k的增大逐渐减小。其他的优化器,都是在这...
2018-01-02 21:39:20 4385
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人