- 博客(12)
- 资源 (10)
- 收藏
- 关注
转载 基于密度的聚类算法DBSCAN
一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个
2018-01-08 10:06:23 2850
转载 支持向量机
支持向量机被认为是机器学习里面最复杂的算法之一,个人感觉是其数学推导以及运行机制多而杂。今天刚刚学习完基础的理论推导,写一个笔记作为备忘:支持向量机用到的数学知识支持向量机要解决的问题距离与数据的定义构造求解目标函数支持向量的作用精度改进核变换支持向量机用到的数学知识点到平面的距离公式拉格朗日乘数法点到平面的距离公式 中学阶段学习过相关的知识,现在的应
2017-12-12 16:39:04 482
原创 Sqoop导入与导出底层
1.Sqoop导入底层工作原理(1)在导入前,Sqoop使用JDBC来检查将要导入的数据表。(2)Sqoop检索出表中所有的列以及列的SQL数据类型。(3)把这些SQL类型的映射到java数据类型,例如(VARCHAR、INTEGER)———>(String,Integer)。(4)在MapReduce应用中将使用这些对应的java类型来保存字段的值。
2017-12-04 20:38:38 1636
原创 机器学习神经网络算法(经典BP算法结合实例推导)原理
1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本 1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network) 2.1 Backpropagation被使用在多层向前神经网络上 2.2 多层向前神经网络由以
2017-10-23 10:05:53 3469
原创 机器学习SVM算法原理之线性不可分情况
1. SVM算法特性: 1.1 训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定的。所以SVM不太容易产生overfitting 1.2 SVM训练出来的模型完全依赖于支持向量(Support Vectors), 即使训练集里面所有非支持向量的点都被去除,重复训练过程,结果仍然会得到完全一样的模型。 1.3 一个SVM如果训练得出
2017-10-17 20:33:22 2617
原创 机器学习分类之结合实际应用介绍KNN算法原理以及利用sklearn进行分类预测
KNN算法原理:存在一个训练样本集,并且每个样本都存在标签(有监督学习)。输入没有标签的新样本数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出与样本集中特征最相似的数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,而且k通常不大于20。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。(一)
2017-10-16 13:25:00 1115
原创 机器学习中决策树算法原理主要有ID3、C4.5、CART算法
1.ID3算法输入:训练数据集D={(x1,y1),.....(xn,yn)}过程:(1)将数据集D喂给一个Node;(2)若D中的所有样本同属于类别Ck,则该Node不再继续生成,并将其类别标记为Ck类;(3)若Xi已经是0维向量,亦即已没有可选特征,则将此时D样本个数最多的类别Ck作为该Node的类别(4)否则,按照互信息定义的信息增益来计算第j维特征的信息
2017-10-16 11:11:24 456
原创 机器学习决策树算法原理以及用sklearn对决策树算法的应用
1. 什么是决策树/判定树(decision tree)? 判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。 2. 机器学习中分类方法中的一个重要算法3. 构造决策树的基本算法
2017-10-16 09:29:30 692
原创 java 实现两个变量的互换(不借助第三个变量,即中间变量、临时变量)
变量的互换常用在数组排序算法中,当判断两个数组元素交互时,需要借助第三个变量来实现,即需要创建一个临时变量来共同完成互换,但是临时变量的创建增加了系统资源的消耗,如果需要交换的是两个整数类型的变量,那么可以使用更高效的方法: 创建一个类,在该类的主方法中创建扫描器来接受两个变量值,那么可以位运算符中异或运算符来实现两个变量的交换。import java.util.Scanne
2017-10-15 15:47:59 1547
原创 spark streaming 检查点机制(checkpoint)
一个Streaming应用程序要求7天24小时不间断运行,因此必须适应各种导致应用程序失败的场景。Spark Streaming的检查点具有容错机制,有足够的信息能够支持故障恢复。支持两种数据类型的检查点:元数据检查点和数据检查点。(1)元数据检查点,在类似HDFS的容错存储上,保存Streaming计算信息。这种检查点用来恢复运行Streaming应用程序失败的Driver进程。(2)数
2017-09-29 15:13:03 8447
原创 Spark SQL原理与DataFrame、DataSet相关API操作以及代码介绍
Spark SQL and DataFrame、DataSet1. 课程目标1.1. 掌握Spark SQL的原理1.2. 掌握DataFrame数据结构和使用方式1.3. 熟练使用Spark SQL完成计算任务2. Spark SQL2.1. Spark SQL概述2.1.1. 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个
2017-09-27 14:23:10 3028 1
翻译 Spark Streaming
1. 课程目标1.1. 掌握Spark Streaming的原理1.2. 熟练使用Spark Streaming完成流式计算任务2. Spark Streaming介绍2.1. Spark Streaming概述2.1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spa
2017-09-26 08:42:10 1015
java8新特性
2017-12-14
Tensorflow实战、Google深度学习框架
2017-12-01
TensorFlow实战
2017-12-01
spark快速大数据分析
2017-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人