机器学习
文章平均质量分 94
htfenght
这个作者很懒,什么都没留下…
展开
-
KNN算法
机器学习算法完整版见fenghaootong-github KNN算法kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 三要素:k值选择、距离矢量、分类决策规则k值选择应用中,k值一般取...原创 2018-03-07 14:17:21 · 825 阅读 · 0 评论 -
C++实现线性回归
完整版见fenghaotong参考网上的代码写的LinearRegression.h/********************************************************************《周志华 机器学习》C++代码** htfeng* 2018.09.28** 第三章:线性模型* 定义一个线性回归的类*******************...原创 2018-09-28 16:54:27 · 8546 阅读 · 0 评论 -
神经网络——机器学习(周志华)
神经网络神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。感知机与多层网络y=f(∑iωixi−θ)y = f(\sum_i \omega_i x_i - \theta)y=f(i∑ωixi−θ)感知机油两层神经元组成,权重ωi(i=1,2,...,n)\omega_i(i = 1,2,...,n)ωi...原创 2018-10-08 15:04:43 · 1559 阅读 · 0 评论 -
支持向量机——机器学习(周志华)
支持向量机原创 2018-10-10 18:38:44 · 1027 阅读 · 2 评论 -
决策树——机器学习(周志华)
决策树决策数学习的基本算法划分选择决策树的关键在第8行,如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。信息增益“信息熵”是度量样本集合纯度最常用的一种指标。信息熵Ent(D)=−∑k=1∣y∣pklog(pk)Ent(D) = -\sum_{k=1}^{|y|}p_klog (p_k)Ent(...原创 2018-09-29 14:11:00 · 1679 阅读 · 0 评论 -
C++实现神经网络
原文地址BP神经网络原理及C++代码实现头文件ANN.h#ifndef _ANN_H_#define _ANN_H_#include<assert.h>#include<stdlib.h>#include<iostream>#include<string>#include<Windows.h>#include<c...转载 2018-10-15 16:19:19 · 6768 阅读 · 0 评论 -
支持向量回归
支持向量回归现在我们来考虑支持向量机得回归问题原创 2018-10-16 18:55:52 · 1841 阅读 · 0 评论 -
贝叶斯分类器——机器学习(周志华)
贝叶斯分类器贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。假设有N中可能的类别标记,即y={c1,c2,...,cN},λij是将一个真实标记的cj的样本误分类成ci所产生的损失。基于后验概率P(ci∣x)可获得将样本x分类成ci所产生的期望损失,即样本x上的“条件风险”假设有N中可能的类别标记,即y=\{c_1, c_2,...,c_N\}, \lambda_{ij}是将一个真实...原创 2018-10-23 17:44:21 · 1019 阅读 · 0 评论 -
集成学习——机器学习(周志华)
集成学习目录:个体和集成BoostingBagging与随机森林Bagging随机森林综合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性增强内容:个体和集成BoostingBagging与随机森林Bagging随机森林综合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性增强...原创 2018-11-01 15:44:43 · 2444 阅读 · 0 评论 -
降维与度量学习——机器学习(周志华)
原文地址降维与度量学习样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字,谓可远观而不可亵玩焉…训练样本的稀疏使得其代表总体分布的能力大大减弱,从而消减了学习器的泛化能力;同时当维数很高时,计算距离也变得十分复杂,甚至连计算...转载 2018-11-01 16:45:39 · 2509 阅读 · 1 评论 -
特征选择与稀疏学习——机器学习(周志华)
原文链接上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法,k近邻算法的核心在于k值的选取以及距离的度量,MDS要求原始空间样本之间的距离在降维后的低维空间中得以保持,主成分分析试图找到一个低维超平面来...转载 2018-11-01 19:54:21 · 3049 阅读 · 0 评论 -
聚类——机器学习(周志华)
原文链接聚类算法聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。聚类直观上来说是将相似的样本聚在一起,从而形成一个类簇(cluster)。那首先的问题是如何来度量相似性(similarity measure)...转载 2018-11-02 09:42:57 · 605 阅读 · 0 评论 -
KNN算法python实现
KNN算法python实现算法概述算法优缺点优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。算法流程1 收集数据:可以使用任何方法。2 准备数据:距离计算所需要的数值,最好是结构化的数据格式。3 分析数据:可以使用任何方法。4 训练算法:此步驟不适用于knn算法。5 测试算法:计算错误率。6 使用算法:首先...原创 2018-12-05 15:25:51 · 12886 阅读 · 2 评论 -
决策树python实现
决策树python实现算法构造算法优缺点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。算法流程收集数据:可以使用任何方法。准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。训练算法:构...原创 2018-12-05 15:27:45 · 1596 阅读 · 0 评论 -
线性模型——机器学习(周志华)
线性模型f(x)=ω1x1+ω2x2+ω3x3+...+ωdxd+bf(\bm{x}) = \omega_1x_1 + \omega_2x_2 + \omega_3x_3 + ... + \omega_dx_d + bf(x)=ω1x1+ω2x2+ω3x3+...+ωdxd+bf(x)=ωTx+bf(\bm{x}) = \bm{\omega^Tx} + bf(x)=ωTx+b...原创 2018-09-27 16:36:32 · 2157 阅读 · 1 评论 -
C++实现决策树
参靠网上的代码用C++实现的决策树,有点小问题。详细代码fenghaotongDecisionTree.h/********************************************************************《周志华 机器学习》C++代码** htfeng* 2018.09.30** 第三章:线性模型* 定义一个决策树的类*********...转载 2018-09-30 22:20:34 · 4340 阅读 · 0 评论 -
KNN算法经典实例
机器学习算法完整版见fenghaootong-github MINST for KNN数据集描述数据文件train.csv和test.csv包含从零到九的手绘数字的灰度图像。每个图像是高28个像素,宽28个像素,总共784像素,每个像素都有一个与之相关的像素值,用来表示像素的亮度,数字越高亮度越暗,这个值的范围是0-255训练集有785列,第一列是标签是用户绘制的...原创 2018-03-07 14:17:35 · 5249 阅读 · 0 评论 -
DataExploration
机器学习算法完整版见fenghaootong-github DataExplorationWe know the data is very important in data science,but it is time-consuming.import pandas as pdimport matplotlib.pyplot as pltimport seaborn a...原创 2018-03-07 14:20:29 · 1426 阅读 · 0 评论 -
逻辑回归(Logistic+Regression)
机器学习算法完整版见fenghaootong-github 逻辑回归(Logistic Regression)Regression问题的常规步骤为: 寻找h函数(即hypothesis);构造J函数(损失函数);想办法使得J函数最小并求得回归参数(θ)构造预测函数h函数形式为:hθ(x)=g(θTx)=11+e−θTxhθ(x)=g(θTx)=11+...原创 2018-03-07 14:20:52 · 1088 阅读 · 0 评论 -
逻辑回归(Logistic+Regression)经典实例
机器学习算法完整版见fenghaootong-github 房价预测数据集描述数据共有81个特征 SalePrice - the property’s sale price in dollars. This is the target variable that you’re trying to predict. MSSubClass: The building clas...原创 2018-03-07 14:23:15 · 20169 阅读 · 1 评论 -
贝叶斯算法
机器学习算法完整版见fenghaootong-github 贝叶斯(Bayesian Techniques)朴素贝叶斯高斯贝叶斯分类器多项式贝叶斯分类器伯努利贝叶斯分类器贝叶斯定理:P(Bi|A)=P(A|Bi)P(B)∑nj=1P(A|Bi)P(Bj)P(Bi|A)=P(A|Bi)P(B)∑j=1nP(A|Bi)P(Bj)P(B_i|A) = \frac{P(A|B...原创 2018-03-07 14:44:00 · 841 阅读 · 0 评论 -
贝叶斯实例
机器学习算法完整版见fenghaootong-github 贝叶斯解决手写体数据集描述数据文件train.csv和test.csv包含从零到九的手绘数字的灰度图像。每个图像是高28个像素,宽28个像素,总共784像素,每个像素都有一个与之相关的像素值,用来表示像素的亮度,数字越高亮度越暗,这个值的范围是0-255训练集有785列,第一列是标签是用户绘制的真实数字,剩下的...原创 2018-03-07 14:36:16 · 1088 阅读 · 0 评论 -
垃圾邮件处理
机器学习算法完整版见fenghaootong-github 垃圾邮件分类在DATA/email/spam文件夹中有25封垃圾邮件,在DATA/email/ham中有25封正常邮件,将其进行垃圾邮件分类。导入需要的库 from numpy import *import reimport warningswarnings.filterwarnings('ignore')...原创 2018-03-07 14:42:35 · 3104 阅读 · 1 评论 -
决策树算法实例
机器学习算法完整版见fenghaootong-githubTitanic预测哪些乘客会幸存下来数据集数据特征: Survived:是否存活(0代表否,1代表是) Pclass:社会阶级(1代表上层阶级,2代表中层阶级,3代表底层阶级)Name:船上乘客的名字Sex:船上乘客的性别Age:船上乘客的年龄(可能存在 NaN)SibSp:乘客在船上的兄弟姐妹和配偶的数量...原创 2018-03-07 15:11:04 · 2579 阅读 · 0 评论 -
决策树算法
机器学习算法完整版见fenghaootong-github决策树(Decision Trees)构建决策树三个步骤:特征选择决策数生成决策数剪枝特征选择熵(entropy) 熵是表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量,其概率分布为P(X=xi)=pi,i=1,2,3,...,nP(X=xi)=pi,i=1,2,3,...,nP(...原创 2018-03-07 15:13:51 · 923 阅读 · 0 评论 -
随机森林实例
机器学习算法完整版见fenghaootong-githubTitanic预测哪些乘客会幸存下来数据集数据特征: Survived:是否存活(0代表否,1代表是) Pclass:社会阶级(1代表上层阶级,2代表中层阶级,3代表底层阶级)Name:船上乘客的名字Sex:船上乘客的性别Age:船上乘客的年龄(可能存在 NaN)SibSp:乘客在船上的兄弟姐妹和配偶的数量...原创 2018-03-07 15:40:22 · 13100 阅读 · 0 评论 -
随机森林算法
机器学习算法完整版见fenghaootong-github随机森林(Random Forests)鉴于决策树容易过拟合的缺点,随机森林采用多个决策树的投票机制来改善决策树 我们假设随机森林使用了m棵决策树,那么就需要产生m个一定数量的样本集来训练每一棵树,如果用全样本去训练m棵决策树显然是不可取的,全样本训练忽视了局部样本的规律,对于模型的泛化能力是有害的 产生n个样本的方法采用B...原创 2018-03-07 15:43:38 · 942 阅读 · 0 评论 -
SVM算法实例
机器学习算法完整版见fenghaootong-githubMINST for SVM导入模块 from sklearn import svmimport pandas as pdimport time导入数据 df = pd.read_csv('../DATA/train.csv')labels = df.as_matrix(columns=['label'])#...原创 2018-03-07 15:48:15 · 5340 阅读 · 0 评论 -
SVM
机器学习算法完整版见fenghaootong-githubSVMLinear Support Vector MachineDual Support Vector MachineKernel Support Vector MachineSoft-Margin Support Vector MachineLinear Support Vector Mahine对于一个...原创 2018-03-07 15:50:37 · 996 阅读 · 0 评论 -
斯坦福机器学习课程汇总
以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程。甚至在大多数资料中,都把这门课放在了首选的位置上。因此,我把吴恩达老师的课程...转载 2019-01-21 16:06:51 · 569 阅读 · 0 评论