sp_programmer的专栏

本博客主要是分享博主对于python、java、机器学习、数据挖掘、自然语言处理和生物信息学数据处理等方面的知识，希望和大家共同学习进步

机器学习

关注

文章平均质量分 73

关注数：文章数：33 文章阅读量：110331 文章收藏量：63

作者: 大当家奥斯卡

时间会证明越努力的人越容易成功！

展开

机器学习之&&Aprior与FP Growth

数据挖掘中有一个很重要的应用，就是Frequent Pattern挖掘，翻译成中文就是频繁模式挖掘。这篇博客就想谈谈频繁模式挖掘相关的一些算法。定义何谓频繁模式挖掘呢？所谓频繁模式指的是在样本数据集中频繁出现的模式。举个例子，比如在超市的交易系统中，记载了很多次交易，每一次交易的信息包括用户购买的商品清单。如果超市主管是个有心人的话，他会发现尿不湿，啤酒这两样商品在许多用户的购物清

原创 2014-11-13 10:02:45 · 2765 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 机器学习系统设计

Prioritizing what to Work on 接下来我们将谈到机器学习系统的设计，主要涉及你在设计复杂的机器学习系统时会遇到的问题，同时我们会给出一些如何构建一个复杂的机器学习系统的建议。接下来的讨论可能连贯性不够，但是它集中的表述了你在设计机器学习系统时可能会遇到的不同问题，虽然这些内容数学性不强，但是对于我们设计机器学习系统非常有用，从而节省大量时间。

原创 2014-12-08 16:30:47 · 3287 阅读 · 3 评论
定期更新(推荐机器学习博客)

机器学习著名博客整理定期更新

原创 2014-12-16 21:30:23 · 2970 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 聚类——Clustering

Ng公开之无监督性学习---K-Means

原创 2014-12-22 20:16:12 · 4590 阅读 · 1 评论
重磅福利！！机器学习和深度学习学习资料合集

重磅福利机器学习和深度学习学习资料

原创 2014-12-23 00:24:27 · 10792 阅读 · 7 评论
机器学习之&&Dual（带约束条件的最优化问题）

关于dual的相关知识，这套理论不仅适用于SVM的优化问题，而是对于所有带约束的优化问题都适用，是优化理论中的一个重要部分。(也许你觉得一个IT人优化问题不重要，其实你仔细想想，现实中的很多问题，都是在有条件约束的情况下的求最优的问题)

原创 2014-12-12 17:39:37 · 17036 阅读 · 3 评论
机器学习之&&SVM支持向量机入门:Maximum Margin Classifier

—— 支持向量机简介。

原创 2014-12-13 13:31:29 · 9189 阅读 · 4 评论
机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

贝叶斯、贝叶斯网络等知识，知名博客整理

原创 2014-12-05 20:55:26 · 2968 阅读 · 0 评论
Spark：一个高效的分布式计算系统

Spark：一个高效的分布式计算系统概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS

原创 2015-03-17 22:49:50 · 643 阅读 · 0 评论
SVM多类划分问题

一般情况下SVM有两种多类划分的方法，一种是one vs rest另外一种是pairwise。

原创 2015-03-22 15:09:51 · 1154 阅读 · 0 评论
机器学习之Boosting小记

机器学习之Boosting小记

原创 2015-04-16 10:30:30 · 1543 阅读 · 0 评论
TF-IDF及其算法

TF-IDF及其算法概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式

转载 2015-05-21 11:07:09 · 448 阅读 · 0 评论
不均匀正负样本分布下的机器学习

不均匀正负样本分布下的机器学习@机器学习那些事儿发起的讨论, 2014-11-15@好东西传送门整理于 2014-12-0939 条精选讨论（选自165条原始评论和转发）机器学习那些事儿 2014-11-15 17:48工业界机器学习典型问题: 正负样本分布极不均匀(通常@老师木 @李沐M @星空下的巫师 @徐盈辉_仁基北冥乘海生转发于 2014-

转载 2015-08-28 09:10:04 · 6867 阅读 · 0 评论
A Few Useful Things to Know About Machine Learning

【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》第 8 卷第 11 期 2012 年 11 月，本文译自Communications of the ACM 2012年第10期的“A Few Useful T

转载 2015-09-09 21:20:49 · 1648 阅读 · 0 评论
随机森林Random Forest

引言在机器学习中，随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树进行分类，最后取所有决策树中分类结果最多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林可以既可以处理属性为离散值的量，如ID3算法

原创 2015-09-12 15:51:36 · 2655 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统

选择最佳拟合model的问题，是machine learning的常见问题，以上内容可以帮助我们更好的选择一个最佳的模型，更好的应用到机器学习的应用中。

原创 2014-12-02 16:57:55 · 4103 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- Advanced optimization(Logistic Regression)

1.首选我们来回顾一下优化算法

原创 2014-11-01 21:38:18 · 2331 阅读 · 1 评论
为什么支持向量机和感知机等问题都有原始和对偶问题之分

每一个线性规划问题都伴随有另一个线性规划问题，称为对偶问题。原来的线性规划问题则称为原始线性规划问题，简称原始问题。对偶问题有许多重要的特征，它的变量能提供关于原始问题最优解的许多重要资料，有助于原始问题的求解和分析。对偶问题与原始问题之间存在着下列关系：①目标函数对原始问题是极大化，对对偶问题则是极小化。②原始问题目标函数中的收益系数是对偶问题约束不等式中的右端常数，而原始问题约束不等式中的右端

原创 2014-09-26 11:49:24 · 2322 阅读 · 0 评论
机器学习之感知机&&python实践

感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面，为求得超平面导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化（最优化）。感知机的学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的，因此

转载 2014-09-24 22:14:42 · 1591 阅读 · 0 评论
机器学习之Knn&&python实践

一、KNN算法原理K最近邻

原创 2014-09-28 10:40:13 · 1255 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- LR之决策边界

决策边界：为更好的让大家理解逻辑回归假设

原创 2014-10-29 22:13:47 · 3008 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习---Regularization

课程背景：训练集yangben

原创 2014-11-02 18:35:03 · 1776 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构1

一起回顾机器学习经典教程Andrew Ng之神经网络。

原创 2014-11-08 21:15:25 · 1395 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构2

1概要上一篇博客，我们共同回顾了什么是神经网络，神经网络的构造，这篇我们来看看神经网络的向量表示

原创 2014-11-10 12:37:25 · 2878 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 神经网络3

前几篇博客，我们已经对神经网络这种伟大的算法有了一定的了解，

原创 2014-11-12 21:56:33 · 1315 阅读 · 0 评论
(转)机器学习之&&Andrew Ng课程复习---神经网络编程入门

神经网络编程入门转自：http://www.cnblogs.com/heaad/archive/2011/03/07/1976443.html 本文主要内容包括： (1) 介绍神经网络基本原理，(2) AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例

原创 2014-11-12 14:57:25 · 1925 阅读 · 0 评论
机器学习&&Hausdorff距离

概念Hausdorff距离以德国数学家（Hausdorff，Felix， 1868～1942）来命名，它描述的是一组点集到另一组点集中的最近点距离中的最大值，说得正规一点，从点集A到点集B的Hausdorff距离是一个极大极小函数，定义为

原创 2014-10-30 12:51:05 · 3509 阅读 · 0 评论
从决策树学习谈到贝叶斯分类算法、EM、HMM (转载自V_JULY_V)

目录(?)[-]从决策树学习谈到贝叶斯分类算法EMHMM引言分类与聚类监督学习与无监督学习第一部分决策树学习什么是决策树ID3算法决策树学习之ID3算法哪个属性是最佳的分类属性ID3算法决策树的形成C45算法读者点评第二部分贝叶斯分类什么是贝叶斯分类拼写纠正贝叶斯的应用newsgroup文档集介绍与预处理特征词的选取贝叶斯算法描述及实现朴素贝叶斯算法对newsgroup文档

转载 2014-11-05 15:36:34 · 2983 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 学习笔记(第三课)

Probabilistic interpretation，概率解释解释为何线性回归的损失函数会选择最小二乘，表示误差，表示unmodeled因素或随机噪声真实的y和预测出来的值之间是会有误差的，因为我们不可能考虑到所有的影响结果的因素比如前面的例子，我们根据面积和卧室的个数来预测房屋的价格但是影响房屋价格的因素其实很多，而且有很多随机因素，比如买卖双方的心情而

原创 2014-10-22 22:01:42 · 2640 阅读 · 0 评论
机器学习之&&距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3,

原创 2014-11-07 10:18:26 · 3229 阅读 · 2 评论
机器学习之&&Andrew Ng课程复习--- 学习笔记(一、二课)

1.概述本文主要是介绍回归方面的知识，属于监督性学习。方法的核心思想：从离散的统计数据中得到模型，然后将模型用于预测或者分类（数据可以是多维）。2.问题的引入

原创 2014-10-20 11:16:46 · 2213 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- Cost Function(Logistic Regression)

对于Logistic Regression的梯度下降请参考这里

原创 2014-10-30 20:55:20 · 1853 阅读 · 0 评论
Deep Learning（深度学习）

Deep Learning（深度学习）ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：一ufldl的2个教程(这个没得说，入门绝对的好教程，Ng的，逻辑清晰有练习)：二Bengio团队的deep learning教程，用的theano库，主要是rbm系列，搞python的可以参考，很不错。deeplearning.net主页，里面包含的

转载 2015-11-04 16:45:59 · 1448 阅读 · 0 评论

机器学习

作者: 大当家奥斯卡

机器学习之&&Aprior与FP Growth

机器学习之&&Andrew Ng课程复习--- 机器学习系统设计

定期更新(推荐机器学习博客)

机器学习之&&Andrew Ng课程复习--- 聚类——Clustering

重磅福利！！机器学习和深度学习学习资料合集

机器学习之&&Dual（带约束条件的最优化问题）

机器学习之&&SVM支持向量机入门:Maximum Margin Classifier

机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

Spark：一个高效的分布式计算系统

SVM多类划分问题

机器学习之Boosting小记

TF-IDF及其算法

不均匀正负样本分布下的机器学习

A Few Useful Things to Know About Machine Learning

随机森林Random Forest

机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统

机器学习之&&Andrew Ng课程复习--- Advanced optimization(Logistic Regression)

为什么支持向量机和感知机等问题都有原始和对偶问题之分

机器学习之感知机&&python实践

机器学习之Knn&&python实践

机器学习之&&Andrew Ng课程复习--- LR之决策边界

机器学习之&&Andrew Ng课程复习---Regularization

机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构1

机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构2

机器学习之&&Andrew Ng课程复习--- 神经网络3

(转)机器学习之&&Andrew Ng课程复习---神经网络编程入门

机器学习&&Hausdorff距离

从决策树学习谈到贝叶斯分类算法、EM、HMM (转载自V_JULY_V)

机器学习之&&Andrew Ng课程复习--- 学习笔记(第三课)

机器学习之&&距离和相似度度量

机器学习之&&Andrew Ng课程复习--- 学习笔记(一、二课)

机器学习之&&Andrew Ng课程复习--- Cost Function(Logistic Regression)

Deep Learning（深度学习）