机器学习
文章平均质量分 60
xmpp10
这个作者很懒,什么都没留下…
展开
-
Logistic Regression(LR)杂记
Logistic Regression(LR)杂记应用经验1. LR < SVM/GBDT/RandomForest ? LR能以概率的形式输出结果,而非只是0,1判定 LR的可解释性强,可控度高(你要给老板讲的嘛…) 训练快,feature engineering之后效果赞 转载 2017-05-01 20:56:24 · 263 阅读 · 0 评论 -
SVM支持矢量机
通过间隔最大化→分离超平面:wTx+b=0→决策函数:h(x)=sign(wTx+b)通过间隔最大化\rightarrow分离超平面:w^Tx+b=0\rightarrow 决策函数:h(x)=sign(w^Tx+b)函数间隔与几何间隔:函数间隔:γ^i=yi(w⋅xi+b)几何间隔:γi=yi(w∥w∥⋅xi+b∥w∥)函数间隔:\hat\gamma_i=y_i(w\cdot x_i+b)\;\转载 2017-08-15 16:50:57 · 442 阅读 · 0 评论 -
k-近邻学习,朴素贝叶斯,期望最大化,最大熵模型算法介绍
k-近邻学习 k-Nearest Neighbor(KNN)1. 算法描述k-近邻学习是一种监督的分类回归方法。工作机制:给定测试样本,基于某种距离度量找出训练集中与其最接近的k和训练样本,然后基于这k个“邻居”的信息进行预测。通常,在分类任务中采用“投票法”;在回归任务中采用“平均法”(也可根据距离远近进行“加权”)。**三个基本要素:**k值得选择,距离度量及分类/回归决策规则。“懒惰学习”没有转载 2017-08-21 21:57:46 · 2891 阅读 · 0 评论 -
机器学习算法整理之Logistic Regression (LR) 逻辑斯谛回归 :分类方法(对数线性模型)
sigmoid 函数:f(z)=11+exp(−z)f(z)=\frac{1}{1+exp(-z)}二分类:P(Y=1|x)=11+exp(−wTx)=exp(wTx)1+exp(wTx)P(Y=1|x)=\frac{1}{1+exp(-w^Tx)}=\frac{exp(w^Tx)}{1+exp(w^Tx)} P(Y=0|x)=exp(−wTx)1+exp(−wTx)=11+exp(wTx),w=原创 2017-08-14 22:29:46 · 761 阅读 · 0 评论 -
集成学习
**集成学习:**ensemble learning, 通过构建多个学习器来完成学习任务,要获得好的集成:个体学习器应“好而不同”,具备准确性和多样性。BoostingBoosting:个体学习器间存在强依赖关系,必须串行生成的序列化方法。工作机制:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练集样本分布进行调整,使得先前基学习器训练错误的训练样本在后续收到更多的关注,然后基于调整后的转载 2017-08-19 17:38:43 · 1507 阅读 · 0 评论 -
ID3, C4.5, CART
决策树学习基本算法叶节点对应决策结果,其他节点对应一个属性测试,通过属性测试的值将样本划分的子节点中 TreeGenerate(D,A){ 生成节点Node; if D只有一个类别C then 将Node标记为C类叶节点; return; end if if A是空集 或 D在A上转载 2017-08-16 15:40:01 · 640 阅读 · 0 评论 -
Matplotlib绘制树形图
机器学习实战之Matplotlib绘制树形图树信息存储为”字典“对象,例如{‘no surfacing’: {0: ‘no’, 1: {‘flippers’: {0: ‘no’, 1: ‘yes’}}}} 绘制图形为: #绘制树形图import matplotlib.pyplot as pltdecision_node = dict(boxstyle="sawtooth",fc="0.8")转载 2017-05-04 16:33:32 · 7334 阅读 · 1 评论 -
scikit-learn API参考手册之sklearn.tree
scikit-learn API参考手册之sklearn.treescikit-learn API参考手册之sklearntreetreeDecisionTreeClassofierparameterstreeDecisionTreeRegressorparameterstreeExtraTreeClassifierparameterstreeExtraTreeRegressorparame翻译 2017-05-06 15:43:23 · 4725 阅读 · 0 评论 -
机器学习概述
机器学习概述一 关注的问题分类问题(根据数据样本上抽取的特征判定其属于有限个类别中的哪个类别)回归问题(根据数据样本上抽取的特征预测一个连续值的结果)聚类问题(根据数据样本上抽取的特征让样本抱团)二 应用计算机视觉(人脸识别。车牌识别,图片搜索)自然语言处理(文本内容理解,文本情绪判断,语音识别,机器翻译)社会网络分析(用户画像,网络关联分析,热点发现)推荐(某宝的”猜你喜欢”,歌转载 2017-05-10 21:40:19 · 271 阅读 · 0 评论 -
Python图像逐像素点取邻域数据
Python图像逐像素点取邻域数据图像比较大的话,在MATLAB上跑起来比较慢,用Python跑就会快很多,贴此备用吧!#coding=utf-8import pandas as pdimport numpy as npfrom pandas import DataFramefrom matplotlib import pyplot as pltfrom matplotlib ...原创 2018-03-20 21:18:33 · 6067 阅读 · 2 评论