自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (10)
  • 收藏
  • 关注

转载 基于密度的聚类算法DBSCAN

一、算法思想:                 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个

2018-01-08 10:06:23 2816

转载 支持向量机

支持向量机被认为是机器学习里面最复杂的算法之一,个人感觉是其数学推导以及运行机制多而杂。今天刚刚学习完基础的理论推导,写一个笔记作为备忘:支持向量机用到的数学知识支持向量机要解决的问题距离与数据的定义构造求解目标函数支持向量的作用精度改进核变换支持向量机用到的数学知识点到平面的距离公式拉格朗日乘数法点到平面的距离公式  中学阶段学习过相关的知识,现在的应

2017-12-12 16:39:04 453

原创 Sqoop导入与导出底层

1.Sqoop导入底层工作原理(1)在导入前,Sqoop使用JDBC来检查将要导入的数据表。(2)Sqoop检索出表中所有的列以及列的SQL数据类型。(3)把这些SQL类型的映射到java数据类型,例如(VARCHAR、INTEGER)———>(String,Integer)。(4)在MapReduce应用中将使用这些对应的java类型来保存字段的值。

2017-12-04 20:38:38 1602

原创 机器学习神经网络算法(经典BP算法结合实例推导)原理

1. 背景:     1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本     1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)     2.1 Backpropagation被使用在多层向前神经网络上     2.2 多层向前神经网络由以

2017-10-23 10:05:53 3453

原创 机器学习SVM算法原理之线性不可分情况

1. SVM算法特性:     1.1 训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定的。所以SVM不太容易产生overfitting     1.2 SVM训练出来的模型完全依赖于支持向量(Support Vectors), 即使训练集里面所有非支持向量的点都被去除,重复训练过程,结果仍然会得到完全一样的模型。     1.3 一个SVM如果训练得出

2017-10-17 20:33:22 2579

原创 机器学习分类之结合实际应用介绍KNN算法原理以及利用sklearn进行分类预测

KNN算法原理:存在一个训练样本集,并且每个样本都存在标签(有监督学习)。输入没有标签的新样本数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出与样本集中特征最相似的数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,而且k通常不大于20。最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。(一)

2017-10-16 13:25:00 1103

原创 机器学习中决策树算法原理主要有ID3、C4.5、CART算法

1.ID3算法输入:训练数据集D={(x1,y1),.....(xn,yn)}过程:(1)将数据集D喂给一个Node;(2)若D中的所有样本同属于类别Ck,则该Node不再继续生成,并将其类别标记为Ck类;(3)若Xi已经是0维向量,亦即已没有可选特征,则将此时D样本个数最多的类别Ck作为该Node的类别(4)否则,按照互信息定义的信息增益来计算第j维特征的信息

2017-10-16 11:11:24 429

原创 机器学习决策树算法原理以及用sklearn对决策树算法的应用

1. 什么是决策树/判定树(decision tree)?          判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。     2.  机器学习中分类方法中的一个重要算法3.  构造决策树的基本算法                  

2017-10-16 09:29:30 686

原创 java 实现两个变量的互换(不借助第三个变量,即中间变量、临时变量)

变量的互换常用在数组排序算法中,当判断两个数组元素交互时,需要借助第三个变量来实现,即需要创建一个临时变量来共同完成互换,但是临时变量的创建增加了系统资源的消耗,如果需要交换的是两个整数类型的变量,那么可以使用更高效的方法:        创建一个类,在该类的主方法中创建扫描器来接受两个变量值,那么可以位运算符中异或运算符来实现两个变量的交换。import java.util.Scanne

2017-10-15 15:47:59 1519

原创 spark streaming 检查点机制(checkpoint)

一个Streaming应用程序要求7天24小时不间断运行,因此必须适应各种导致应用程序失败的场景。Spark Streaming的检查点具有容错机制,有足够的信息能够支持故障恢复。支持两种数据类型的检查点:元数据检查点和数据检查点。(1)元数据检查点,在类似HDFS的容错存储上,保存Streaming计算信息。这种检查点用来恢复运行Streaming应用程序失败的Driver进程。(2)数

2017-09-29 15:13:03 8390

原创 Spark SQL原理与DataFrame、DataSet相关API操作以及代码介绍

Spark SQL and DataFrame、DataSet1. 课程目标1.1. 掌握Spark SQL的原理1.2. 掌握DataFrame数据结构和使用方式1.3. 熟练使用Spark SQL完成计算任务2. Spark SQL2.1. Spark SQL概述2.1.1. 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个

2017-09-27 14:23:10 2979 1

翻译 Spark Streaming

1. 课程目标1.1. 掌握Spark Streaming的原理1.2. 熟练使用Spark Streaming完成流式计算任务2. Spark Streaming介绍2.1. Spark Streaming概述2.1.1. 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spa

2017-09-26 08:42:10 1007

java8新特性

java SE8 新特性,每一位java开发工程师的必备宝典,其中包括lambda表达式以及lambda编程、stream API处理、新的日期与时间API、JavaScript引擎、并发增强处理、杂项处理等等。

2017-12-14

Tensorflow实战、Google深度学习框架

Tensorflow实战Goole深度学习框架,概述详细介绍了Tensorflow框架的基础知识,结合代码示例详细介绍各种卷积神经网络。

2017-12-01

TensorFlow实战

Google近日发布了TensorFlow 1.0候选版,这个稳定版将是深度学习框架发展中的里程碑的一步。自TensorFlow于2015年底正式开源,距今已有一年多,这期间TensorFlow不断给人以惊喜,推出了分布式版本,服务框架TensorFlow Serving,可视化工具TensorFlow,上层封装TF.Learn,其他语言(Go、Java、Rust、Haskell)的绑定、Windows的支持、JIT编译器XLA、动态计算图框架Fold,以及数不胜数的经典模型在TensorFlow上的实现(Inception Net、SyntaxNet等)。在这一年多时间,TensorFlow已从初入深度学习框架大战的新星,成为了几近垄断的行业事实标准。, 《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow(基于1.0版本API)。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理,TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络:AutoEncoder、MLP、CNN(AlexNet,VGGNet,Inception Net,ResNet)、Word2Vec、RNN(LSTM,Bi-RNN)、Deep Reinforcement Learning(Policy Network、Value Network)。此外,《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习,在工业界或者研究中快速地将想法落地为可实践的模型。

2017-12-01

java项目开发实战案例

java项目开发实战,主要以案例讲解各种系统开发的流程,包括数据库,以及前台和后台之间的连接,主要以代码讲解为主。

2017-12-01

kandle阅读器(支持mobi格式)

kandle阅读器,可以支持各种文件格式,最重要的是支持mobi格式,非常方便使用。

2017-11-23

redis入门指南第二版

redis入门指南第二版,与python衔接,在集群中的操作。

2017-11-23

spark快速大数据分析

spark快速大数据分析,这是一本比较适合初学者的使用教材,它绝不仅仅限于spark的用法,它对spark的核心概念和基本原理也有较为全面的介绍,本书把spark应用到实践当中,非常值的观看

2017-11-07

mysql连接驱动相关jar包

mysql驱动程序,相关jar包、可以是centos7 mysql社区版,以及在hive中使用。

2017-11-07

spark高级数据分析

使用Spark进行大数据分析的实战宝典,第一章结合数据科学和大数据分析的广阔背景来讨论spark,随后各章在介绍spark数据分析时都自成一体。主要有用scala和spark进行数据分析、音乐推荐和Audioscrobbler数据集、用决策树算法预测森林植被、基于K均值聚类的网络流量异常检测、基于潜在语义分析算法分析维基百科、用GraphX分析伴生网络、纽约出租车轨迹的空间和时间数据分析、基于蒙特卡洛模拟的金融风险评估、基因数据分析和BDG项目以及最后介绍基于PySpark和Thunder的神经图像数据分析。

2017-10-18

全息影像原理

全息影像全面介绍,包括全息投影、裸眼3D投影、裸眼3D成像、全息6D等

2017-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除