sp_programmer的专栏

本博客主要是分享博主对于python、java、机器学习、数据挖掘、自然语言处理和生物信息学数据处理等方面的知识，希望和大家共同学习进步

统计学习

关注

文章平均质量分 70

关注数：文章数：25 文章阅读量：89006 文章收藏量：55

作者: 大当家奥斯卡

时间会证明越努力的人越容易成功！

展开

从决策树学习谈到贝叶斯分类算法、EM、HMM (转载自V_JULY_V)

目录(?)[-]从决策树学习谈到贝叶斯分类算法EMHMM引言分类与聚类监督学习与无监督学习第一部分决策树学习什么是决策树ID3算法决策树学习之ID3算法哪个属性是最佳的分类属性ID3算法决策树的形成C45算法读者点评第二部分贝叶斯分类什么是贝叶斯分类拼写纠正贝叶斯的应用newsgroup文档集介绍与预处理特征词的选取贝叶斯算法描述及实现朴素贝叶斯算法对newsgroup文档

转载 2014-11-05 15:36:34 · 3007 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习---Regularization

课程背景：训练集yangben

原创 2014-11-02 18:35:03 · 1802 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 学习笔记(一、二课)

1.概述本文主要是介绍回归方面的知识，属于监督性学习。方法的核心思想：从离散的统计数据中得到模型，然后将模型用于预测或者分类（数据可以是多维）。2.问题的引入

原创 2014-10-20 11:16:46 · 2240 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- Cost Function(Logistic Regression)

对于Logistic Regression的梯度下降请参考这里

原创 2014-10-30 20:55:20 · 1858 阅读 · 0 评论
机器学习之&&Aprior与FP Growth

数据挖掘中有一个很重要的应用，就是Frequent Pattern挖掘，翻译成中文就是频繁模式挖掘。这篇博客就想谈谈频繁模式挖掘相关的一些算法。定义何谓频繁模式挖掘呢？所谓频繁模式指的是在样本数据集中频繁出现的模式。举个例子，比如在超市的交易系统中，记载了很多次交易，每一次交易的信息包括用户购买的商品清单。如果超市主管是个有心人的话，他会发现尿不湿，啤酒这两样商品在许多用户的购物清

原创 2014-11-13 10:02:45 · 2789 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统

选择最佳拟合model的问题，是machine learning的常见问题，以上内容可以帮助我们更好的选择一个最佳的模型，更好的应用到机器学习的应用中。

原创 2014-12-02 16:57:55 · 4122 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 机器学习系统设计

Prioritizing what to Work on 接下来我们将谈到机器学习系统的设计，主要涉及你在设计复杂的机器学习系统时会遇到的问题，同时我们会给出一些如何构建一个复杂的机器学习系统的建议。接下来的讨论可能连贯性不够，但是它集中的表述了你在设计机器学习系统时可能会遇到的不同问题，虽然这些内容数学性不强，但是对于我们设计机器学习系统非常有用，从而节省大量时间。

原创 2014-12-08 16:30:47 · 3314 阅读 · 3 评论
重磅福利！！机器学习和深度学习学习资料合集

重磅福利机器学习和深度学习学习资料

原创 2014-12-23 00:24:27 · 10821 阅读 · 7 评论
机器学习之&&SVM支持向量机入门:Maximum Margin Classifier

—— 支持向量机简介。

原创 2014-12-13 13:31:29 · 9244 阅读 · 4 评论
机器学习之&&Dual（带约束条件的最优化问题）

关于dual的相关知识，这套理论不仅适用于SVM的优化问题，而是对于所有带约束的优化问题都适用，是优化理论中的一个重要部分。(也许你觉得一个IT人优化问题不重要，其实你仔细想想，现实中的很多问题，都是在有条件约束的情况下的求最优的问题)

原创 2014-12-12 17:39:37 · 17116 阅读 · 3 评论
机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

贝叶斯、贝叶斯网络等知识，知名博客整理

原创 2014-12-05 20:55:26 · 2979 阅读 · 0 评论
机器学习之Boosting小记

机器学习之Boosting小记

原创 2015-04-16 10:30:30 · 1572 阅读 · 0 评论
机器学习&&Hausdorff距离

概念Hausdorff距离以德国数学家（Hausdorff，Felix， 1868～1942）来命名，它描述的是一组点集到另一组点集中的最近点距离中的最大值，说得正规一点，从点集A到点集B的Hausdorff距离是一个极大极小函数，定义为

原创 2014-10-30 12:51:05 · 3525 阅读 · 0 评论
(转)机器学习之&&Andrew Ng课程复习---神经网络编程入门

神经网络编程入门转自：http://www.cnblogs.com/heaad/archive/2011/03/07/1976443.html 本文主要内容包括： (1) 介绍神经网络基本原理，(2) AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例

原创 2014-11-12 14:57:25 · 1948 阅读 · 0 评论
为什么支持向量机和感知机等问题都有原始和对偶问题之分

每一个线性规划问题都伴随有另一个线性规划问题，称为对偶问题。原来的线性规划问题则称为原始线性规划问题，简称原始问题。对偶问题有许多重要的特征，它的变量能提供关于原始问题最优解的许多重要资料，有助于原始问题的求解和分析。对偶问题与原始问题之间存在着下列关系：①目标函数对原始问题是极大化，对对偶问题则是极小化。②原始问题目标函数中的收益系数是对偶问题约束不等式中的右端常数，而原始问题约束不等式中的右端

原创 2014-09-26 11:49:24 · 2332 阅读 · 0 评论
机器学习之感知机&&python实践

感知机（perceptron）是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别（取+1和-1）。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面，为求得超平面导入了基于误分类的损失函数，利用梯度下降法对损失函数进行最优化（最优化）。感知机的学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的实例进行预测的，因此

转载 2014-09-24 22:14:42 · 1616 阅读 · 0 评论
机器学习之Knn&&python实践

一、KNN算法原理K最近邻

原创 2014-09-28 10:40:13 · 1281 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- LR之决策边界

决策边界：为更好的让大家理解逻辑回归假设

原创 2014-10-29 22:13:47 · 3016 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 学习笔记(第三课)

Probabilistic interpretation，概率解释解释为何线性回归的损失函数会选择最小二乘，表示误差，表示unmodeled因素或随机噪声真实的y和预测出来的值之间是会有误差的，因为我们不可能考虑到所有的影响结果的因素比如前面的例子，我们根据面积和卧室的个数来预测房屋的价格但是影响房屋价格的因素其实很多，而且有很多随机因素，比如买卖双方的心情而

原创 2014-10-22 22:01:42 · 2706 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- Advanced optimization(Logistic Regression)

1.首选我们来回顾一下优化算法

原创 2014-11-01 21:38:18 · 2364 阅读 · 1 评论
机器学习之&&距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2, x3,

原创 2014-11-07 10:18:26 · 3256 阅读 · 2 评论
机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构1

一起回顾机器学习经典教程Andrew Ng之神经网络。

原创 2014-11-08 21:15:25 · 1421 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构2

1概要上一篇博客，我们共同回顾了什么是神经网络，神经网络的构造，这篇我们来看看神经网络的向量表示

原创 2014-11-10 12:37:25 · 2900 阅读 · 0 评论
机器学习之&&Andrew Ng课程复习--- 神经网络3

前几篇博客，我们已经对神经网络这种伟大的算法有了一定的了解，

原创 2014-11-12 21:56:33 · 1321 阅读 · 0 评论
TF-IDF及其算法

TF-IDF及其算法概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式

转载 2015-05-21 11:07:09 · 456 阅读 · 0 评论

统计学习

作者: 大当家奥斯卡

从决策树学习谈到贝叶斯分类算法、EM、HMM (转载自V_JULY_V)

机器学习之&&Andrew Ng课程复习---Regularization

机器学习之&&Andrew Ng课程复习--- 学习笔记(一、二课)

机器学习之&&Andrew Ng课程复习--- Cost Function(Logistic Regression)

机器学习之&&Aprior与FP Growth

机器学习之&&Andrew Ng课程复习--- 怎样选择机器学习方法、系统

机器学习之&&Andrew Ng课程复习--- 机器学习系统设计

重磅福利！！机器学习和深度学习学习资料合集

机器学习之&&SVM支持向量机入门:Maximum Margin Classifier

机器学习之&&Dual（带约束条件的最优化问题）

机器学习之&&贝叶斯定理、朴素贝叶斯实现、贝叶斯网络等知识博客整理

机器学习之Boosting小记

机器学习&&Hausdorff距离

(转)机器学习之&&Andrew Ng课程复习---神经网络编程入门

为什么支持向量机和感知机等问题都有原始和对偶问题之分

机器学习之感知机&&python实践

机器学习之Knn&&python实践

机器学习之&&Andrew Ng课程复习--- LR之决策边界

机器学习之&&Andrew Ng课程复习--- 学习笔记(第三课)

机器学习之&&Andrew Ng课程复习--- Advanced optimization(Logistic Regression)

机器学习之&&距离和相似度度量

机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构1

机器学习之&&Andrew Ng课程复习--- 神经网络的表层结构2

机器学习之&&Andrew Ng课程复习--- 神经网络3

TF-IDF及其算法