2016年11月_jim_cainiaoxiaolang

原创机器学习算法（推荐算法）—协同过滤推荐算法(2)

一、基于协同过滤的推荐系统协同过滤(Collaborative Filtering)的推荐系统的原理是通过将用户和其他用户的数据进行比对来实现推荐的。比对的具体方法就是通过计算两个用户数据之间的相似性，通过相似性的计算来说明两个用户数据之间的相似程度。相似度函数的设计必须满足度量空间的三点要求，即非负性，对称性和三角不等性。常用的相似度的计算方法有：欧式距离法、皮尔逊相关系数法和夹角余

2016-11-23 17:51:04 1026

原创机器学习算法（推荐算法）—协同过滤推荐算法(1)

一、推荐系统的概念推荐系统(Recommendation System, RS)，简单来说就是根据用户的日常行为，自动预测用户的喜好，为用户提供更多完善的服务。举个简单的例子，在京东商城，我们浏览一本书之后，系统会为我们推荐购买了这本书的其他用户购买的其他的书：推荐系统在很多方面都有很好的应用，尤其在现在的个性化方面发挥着重要的作用。二、推荐系统的分类推荐系

2016-11-23 17:48:18 1321

原创机器学习算法（聚类算法）—基于密度的聚类算法DBSCAN

一、基于密度的聚类算法的概述最近在Science上的一篇基于密度的聚类算法《Clustering by fast search and find of density peaks》引起了大家的关注(在我的博文“机器学习算法（聚类算法）-基于密度峰值的聚类算法”中也进行了中文的描述)。于是我就想了解下基于密度的聚类算法，熟悉下基于密度的聚类算法与基于距离的聚类算法，如K-Means算法之

2016-11-22 21:30:50 1172 1

原创机器学习算法（聚类算法）—K-Means算法

K-Means首先随机初始化k个聚类中心，通过迭代的方式不断调整聚类中心，知道k个聚类中心不再改变为之。在K-Means算法中，和K-近邻算法一样，这里的K的取值和相似性的度量都是很重要的。一、聚类算法的简介聚类算法是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是：聚类算法是无监督的学习算法，而分类算法属于监督的学习算法

2016-11-22 21:23:23 593

原创机器学习算法（回归算法）—岭回归(Ridge Regression)

一、一般线性回归遇到的问题在处理复杂的数据的回归问题时，普通的线性回归会遇到一些问题，主要表现在：预测精度：这里要处理好这样一对为题，即样本的数量和特征的数量时，最小二乘回归会有较小的方差时，容易产生过拟合时，最小二乘回归得不到有意义的结果模型的解释能力：如果模型中的特征之间有相互关系，这样会增加模型的复杂程度，并且对整个模型的解释能力并没有提高，这时，

2016-11-18 21:06:29 4110

原创机器学习算法（回归算法）—线性回归(2)

一、基本线性回归模型的抽象在基本的线性回归中(可见机器学习算法（回归算法）-线性回归（1）)，对于一个线性回归为题，我们得到一个线性方程组：在上一篇中我们是构建平方误差函数使得误差函数取得最小值得方法求得回归系数。换种思考，对于这样的一个线性方程组的求解我们有其他的方式，这里我们提到了广义逆。二、广义逆 1、广义逆的概念广义逆的形式很多，并且广

2016-11-18 21:03:35 864

转载 MLlib算法简介

之前Mahout或者自己写的MR来解决复杂的机器学习，导致效率低，spark特别适合迭代式的计算，这正是机器学习算法训练所需要的，MLlib是基于spark之上算法组件，基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了，分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。以上是目前spark1.3支

2016-11-17 19:32:02 1323

原创提升时间的品质

《怎样有效利用时间》中给出的建议差不多已经能够让你充分利用各类时间了。但更为重要的是，你必须让时间变得更优质。大多数人都把大量时间花费在上学、上班这种事情上。如果你在上学或者上班，那么你空余的时间就不多了。你必须要停止浪费时间。那么，你能做些什么呢？减少物理限制随身带上纸和笔差不多所有我认识的、做事有效率的人都会随身带着笔记本之类的东西。纸和笔都在任何情况下都能立马拿出来使用—

2016-11-17 19:20:29 498

原创怎样有效利用时间？

总有人说：“如果你把看电视的时间用来写作，早就写出一部小说了！”这话确实令人难以反驳——毫无疑问，把时间用在写小说上无疑要比消磨在看电视上更有意义。但是这个说法隐含了这样一个假设：时间是“可替换的”，你可以轻易地用看电视的时间来写作。但实际上并非如此。时间的“品质”也不尽相同。比方说，如果在搭地铁时没带记事本，我就很难利用这个时间写点什么；如果一直受到干扰，你就很难集中精力做事。另外，心情也会

2016-11-17 17:46:29 378

原创机器学习算法（回归算法）—线性回归(1)

本文主要实现了基本的线性回归和局部加权线性回归。主要通过正规方程组的方式求解权重。在线性回归中最容易出现过拟合和欠拟合的问题，所以引入局部加权线性回归，通过权重调节每个特征的重要程度。一、线性回归的概念对连续型数据做出预测属于回归问题。举个简单的例子：例如我们在知道房屋面积(HouseArea)和卧室的数量(Bedrooms)的情况下要求房屋的价格(Price)。通过一组数据，

2016-11-17 10:04:32 883

原创机器学习算法（分类算法）—支持向量机（4）

一、回顾前面三篇博文主要介绍了支持向量机的基本概念，线性可分支持向量机的原理以及线性支持向量机的原理，线性可分支持向量机是线性支持向量机的基础。对于线性支持向量机，选择一个合适的惩罚参数0" alt="">，并构造凸二次规划问题：求得原始问题的对偶问题的最优解，由此可求出原始问题的最优解：其中为中满足的分量。这样便可以求得分离超平面

2016-11-17 09:57:10 603

转载 spark中的SparkContext实例的textFile使用的小技巧

网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是：1. 一个文件路径，这时候只装载指定的文件2. 一个目录路径，这时候只装载指定目录下面的所有文件（不包括子目录下面的文件）3. 通过通配符的形式加载多个文

2016-11-16 19:18:33 782

原创机器学习算法（分类算法）—支持向量机（3)

一、线性支持向量机的概念线性支持向量机是针对线性不可分的数据集的，这样的数据集可以通过近似可分的方法实现分类。对于这样的数据集，类似线性可分支持向量机，通过求解对应的凸二次规划问题，也同样求得分离超平面以及相应的分类决策函数二、与线性可分支持向量机的比较线性支持向量机与线性可分支持向量机最大的不同就是在处理的问题上，线性可分支持向量机处理的是严格线性

2016-11-16 08:29:27 1052

原创机器学习算法（分类算法）—支持向量机（2）

一、线性可分支持向量机的概念线性可分支持向量机是用于求解线性可分问题的分类问题。对于给定的线性可分训练数据集，通过间隔最大化构造相应的凸二次优化问题可以得到分离超平面：以及相应的分类决策函数称为线性可分支持向量机。二、线性可分支持向量机的原理1、原始问题支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，这里的间隔

2016-11-16 08:26:55 1110

原创机器学习算法（分类算法）—支持向量机（1）

一、引言支持向量机(Support Vector Machines, SVM)被公认为比较优秀的分类模型，有很多人对SVM的基本原理做了阐述，我在学习的过程中也借鉴了他们的研究成果，在我的博客中只是想介绍基本的原理，用通俗易懂的方式把原理解释清楚，并期望通过MATLAB的代码实现这些基本的原理。由于SVM对数学理论的要求很高，并且SVM的形式也有多种，有不同的实现方式，在这个系列中我们

2016-11-16 08:11:00 1299

原创机器学习算法（分类算法）—神经网络之BP神经网络

一、BP神经网络的概念 BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型：(三层BP神经网络模型)BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和

2016-11-16 08:06:15 6683

原创机器学习算法(分类算法）—极限学习机(ELM)

一、极限学习机的概念极限学习机(Extreme Learning Machine) ELM，是由黄广斌提出来的求解单隐层神经网络的算法。 ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，在保证学习精度的前提下比传统的学习算法速度更快。二、极限学习机的原理ELM是一种新型的快速学习算法，对于单隐层神经网络，ELM 可以随机初始化输入权重和偏

2016-11-16 07:51:19 8698 1

转载机器学习的应用

引言前阵子看到一篇文章，学习了一段时间的机器学习算法后，再回头看机器学习问题，发现要想利用机器学习去很好的求解一个问题，其实并不是一件容易办到的事情，尤其是能够对整个模型的解释方面，要想能够对模型很好的解释，那么难度就会更大。因为利用机器学习处理一个实际的问题就不仅仅是我们得学会怎么使用机器学习算法，更重要的是如何对整个问题建模。我刚开始是学习智能计算，当然一个优化问题怎么去建模，建模

2016-11-15 16:49:12 470

原创机器学习算法（分类算法）—Rosenblatt感知机的对偶解法

一、Rosenblatt感知机回顾在博文“简单易学的机器学习算法——Rosenblatt感知机”中介绍了Rosenblatt感知机的基本概念。Rosenblatt感知机是针对线性可分问题的二分类算法。通过构造分离超平面将正类和负类区分开。构造了如下的输入空间到输出空间的函数：其中，为权重，为偏置。为符号函数：求解这个函数的重点就是求解函数中的参数：和。Rosen

2016-11-15 11:13:31 1042

原创机器学习算法(分类算法）—Rosenblatt感知机

一、感知机的概念感知机是一种二类分类的线性模型，输入实例的特征向量，输出为实例的类别，即+1或者-1。感知机模型是神经网络和支持向量机的基础。假设特征为，类标签为，由特征到类标签的映射可以表示为这样的函数称为感知机。其中和为感知机的参数，为权重，为偏置。为向量与向量之间的内积。为符号函数：为分隔超平面。二、感知机模型的训练

2016-11-15 11:00:31 1018

原创 Apache Spark 2.0正式版发布下载

我们很荣幸地宣布，自7月26日起Databricks开始提供Apache Spark2.0的下载，这个版本是基于社区在过去两年的经验总结而成，不但加入了用户喜爱的功能，也修复了之前的痛点。　　本文总结了Spark 2.0的三大主题：更简单、更快速、更智能，另有Spark 2.0内容的文章汇总介绍了更多细节。　　两个月前，Databricks发布了Apache Spark

2016-11-14 20:46:41 972

转载 VMWare虚拟机设置固定ip上网方法

前一阵子自己在虚拟机安装了Linux Mint，使用的是DHCP方式上网，这样每次获取的ip都是不固定的，由于我编写程序的方法，是用secureCRT以SSH方式连接到Vmware上使用Linux编程，有时开启smaba服务共享目录，在windows下使用source insight编程，这样我能够使用比较熟悉的windows环境下的一些工具。前面说道，VMWare使用的是DHCP

2016-11-14 20:17:46 647

原创机器学习算法（分类算法）—决策树之ID3算法

一、决策树分类算法概述决策树算法是从数据的属性（或者特征）出发，以属性作为基础，划分不同的类。例如对于如下数据集（数据集）其中，第一列和第二列为属性（特征），最后一列为类别标签，1表示是，0表示否。决策树算法的思想是基于属性对数据分类，对于以上的数据我们可以得到以下的决策树模型（决策树模型）先是根据第一个属性将一部份数据区分开，再根据第二个属性将剩余的区

2016-11-14 16:00:38 1912

原创深度学习知识结构图

2016-11-14 14:46:18 1013

原创机器学习算法(分类算法）—Logistic回归

一、Logistic回归的概述 Logistic回归是一种简单的分类算法，提到“回归”，很多人可能觉得与分类没什么关系，Logistic回归通过对数据分类边界的拟合来实现分类。而“回归”也就意味着最佳拟合。要进行最佳拟合，则需要寻找到最佳的拟合参数，一些最优化方法就可以用于最佳回归系数的确定。二、最优化方法确定最佳回归系数最优化方法有基于梯度的梯度下降法、梯度上升法，改进

2016-11-14 12:07:13 759

原创机器学习算法(分类算法）—朴素贝叶斯

一、贝叶斯定理 1、条件概率条件概率是指在事件B发生的情况下，事件A发生的概率，用表示。 2、全概率公式含义是：如果和构成样本空间的一个划分，那么事件B的概率，就等于和的概率分别乘以B对这两个事件的条件概率之和。 3、贝叶斯推断其中P(A)称为先验概率，即在事件B发生之前，我们对事件A的概率的一个判断。称为后验

2016-11-14 11:24:16 494

转载优化算法—粒子群算法(PSO)

一、粒子群算法的概述粒子群算法(PSO)属于群智能算法的一种，是通过模拟鸟群捕食行为设计的。假设区域里就只有一块食物（即通常优化问题中所讲的最优解），鸟群的任务是找到这个食物源。鸟群在整个搜寻的过程中，通过相互传递各自的信息，让其他的鸟知道自己的位置，通过这样的协作，来判断自己找到的是不是最优解，同时也将最优解的信息传递给整个鸟群，最终，整个鸟群都能聚集在食物源周围，即我们所说的找到了

2016-11-14 11:03:09 12617 1

原创机器学习算法（分类算法）—k-近邻算法

一、机器学习算法概述机器学习算法主要分为监督学习算法，无监督学习算法。其中监督学习算法需要的数据包括样本，如训练样本,和每组数据的标签，即所属的类别；而无监督学习只有样本数据，我们需要构建出样本与样本之间的差异。常见的分类算法，回归算法属于监督学习算法，如K-近邻，决策树，logistic回归，朴素贝叶斯，SVM等；聚类算法属于无监督学习算法，如K-均值等。对于监督学习，机器学习算

2016-11-08 18:57:22 381

转载优化算法—人工蜂群算法(ABC)

一、人工蜂群算法的介绍人工蜂群算法(Artificial Bee Colony, ABC)是由Karaboga于2005年提出的一种新颖的基于群智能的全局优化算法，其直观背景来源于蜂群的采蜜行为，蜜蜂根据各自的分工进行不同的活动，并实现蜂群信息的共享和交流，从而找到问题的最优解。人工蜂群算法属于群智能算法的一种。二、人工蜂群算法的原理 1、原理标准的

2016-11-08 18:34:44 5570 2

转载优化算法—梯度下降法

一、优化算法概述优化算法所要求解的是一个问题的最优解或者近似最优解。现实生活中有很多的最优化问题，如最短路径问题，如组合优化问题等等，同样，也存在很多求解这些优化问题的方法和思路，如梯度下降方法。机器学习在近年来得到了迅速的发展，越来越多的机器学习算法被提出，同样越来越多的问题利用机器学习算法得到解决。优化算法是机器学习算法中使用到的一种求解方法。在机器学习，我们需要寻

2016-11-08 18:21:12 498

原创 java程序员面试笔试题（网络部分2）

1.交换机和路由器有什么区别2.路由表的功能有哪些3.TCP和UDP的区别有哪些4.什么叫三次握手？什么叫四次断开5.什么是ARP/RARP?6.相比IPV4，IPV6的优点？7.简单描述下了解的SDN？

2016-11-08 15:48:55 405

读读书，敲敲代码，写写博客，思考思考人生。