机器学习
dxz_tust
拥抱开源~
展开
-
机器学习一:监督学习笔记
首先,分类学习是对于事物类别的一个判断,一般通常以二分类为例子,结果只有yes 或者no,并且是针对离散变量而言的(如花的分类,泰坦尼克号生还率的预测,良性/恶性肿瘤的预测,新闻分类,对手写数字的识别等等)。但回归预测是对事物的一个发展趋势的一个预测,并且是针对连续变量(如波士顿房价预测)1.线性分类器:通过累加计算每个维度的特征与各自权重的乘积来帮助决策。2.支持向量机:两个空间间隔原创 2017-06-17 23:52:22 · 409 阅读 · 0 评论 -
吴恩达机器学习之聚类算法的参数选择以及优化
对于K(k<样本量的)均值聚类,一般参数的自定义主要有两个,一个是聚类中心初始位置的选择,二是K值的选择优化目标:每个样本点到该点聚类中心的平方的累加解决聚类中心的初始化问题:随机挑选样本点作为聚类中心,这个过程重复50-1000次,选出J值最低的(通常K值为2-10的时候该方法比较有效)。解决K值问题,肘部法:尝试不同的K(K值通常为3-10比较好)值,算出J值,选取拐点出的K值...原创 2018-07-03 22:33:59 · 1343 阅读 · 0 评论 -
吴恩达机器学习之svm根据训练样本数量和样本特征数量关系选择核函数
事实上逻辑回归和SVM(线性核)是相似的。最常用的核函数还是线性核,和高斯核原创 2018-07-03 21:57:33 · 11539 阅读 · 0 评论 -
吴恩达机器学习笔记: 用精确度和召回率度量评估一个算法模型性能
精确度和召回率定义:用F1参数去权衡:一般F1值较高的模型,模型性能较好。说通俗的就是,准确率就是找得对,召回率就是找得全。原创 2018-06-17 14:32:01 · 1748 阅读 · 0 评论 -
吴恩达机器学习笔记:关于训练模型中出现高偏差和高方差的处理办法
为了便于理解,我直接贴两幅图像(蓝色的曲线是验证集误差,粉红色曲线是训练误差):1.高偏差2.高方差3.解决方法:原创 2018-06-15 22:29:55 · 3719 阅读 · 0 评论 -
吴恩达机器学习SVM参数的选择问题
参数C以及δ原创 2018-06-23 11:31:02 · 552 阅读 · 0 评论 -
PCA算法缺点
主成分解释其含义往往具有一定的模糊性,不如原始样本完整贡献率小的主成分往往可能含有对样本差异的重以PCA一般不用来做直接的特征提取而是用来做特征矩阵的降维。当然,降维的结果用于分类并不理想,我们可以进一步Fisher变换(类内离差,类间阵增大类间距离,缩小类内距离)。但是Fisher变换会引入新的弱点,那就是对于训练类别的数据变得更敏感了,分类效果上升的代价是通用性下降,当原创 2018-01-29 16:21:00 · 17267 阅读 · 0 评论 -
基于C均值算法简单分类(matlab实现)
% 样本集x=[0,1;0,2;4,4;-1,-1;4,5;5,6;5,5;1,1];% x,y轴范围xmin=-2;xmax=8;ymin=-2;ymax=8;[N,M]=size(x);% 选取存储中心点的位置,分别为前两类的中心,后一次两类中心,初始化前一次中心点% A1,B1A1=x(1,:);B1=x(2,:);A2=[];B2=[];原创 2017-12-14 19:00:14 · 10247 阅读 · 3 评论 -
基于简单感知器分类算法(matlab实现)
% 定义感知器算法 d=w1*x1+w2*x2+w3;x=[0,0;0,1;1,0;1,-1];class=[1,1,-1,-1];%定义修改权重pp=1;% 初始化权重参数w=[0,0,0];%判别准则是错误次数err_counterr_count=1;[N,M]=size(x);%增广and规范化x=[x,ones(N,1)];xx=zeros(原创 2017-12-14 18:58:22 · 6185 阅读 · 3 评论 -
classification_report方法详细解释
from sklearn.metrics import classification_report下面是官方文档的部分内容:classification_report(y_true, y_pred, labels=None, target_names=None, sample_weight=None, digits=2) # Parameters ----------原创 2017-11-05 17:31:47 · 11690 阅读 · 0 评论 -
PCA人脸识别步骤
PCA人脸识别算法的实现步骤如下: 1.首先把所有的训练图片集的每张图片都转换为行向量的形式 2.计算向量集的PCA子空间,并得到特征值和特征向量及均值 3.将训练集的图片与对应的标签都投影到这个PCA子空间,行程一个投影矩阵 4.导入待识别的图像,并进行向量化,也投影到这个PCA子空间 5.计算PCA投影后的训练集向量与待识别图片投影后向量的距离,并找出最接近的那个...原创 2018-04-17 11:49:51 · 1335 阅读 · 0 评论 -
ImportError: No module named examples.tutorials.mnist
安装的tensorflow升级版本后就OK了, 0.8.0 -> 0.9.0 sudo pip install --upgrade https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0rc0-cp27-none-linux_x86_64.whl sudo pip install --upg原创 2017-09-16 13:48:06 · 674 阅读 · 0 评论 -
在使用 classification_report 中出现IndexError错误
例如classification_report(y_test, mnb_y_predict,target_names=news.target_names)在使用 classification_report 中出现IndexError错误: values = [target_names[i]]IndexError: list index out of range很可原创 2017-06-08 00:11:54 · 850 阅读 · 0 评论 -
关于什么时候用异常检测和监督学习,以及多元高斯模型的使用
当有很多负样本,少量正样本的时候,用异常检测。假如特征不符合高斯分布,则应该对原始特征做一个变换,比如log(x)或者X^2等等让其符合高斯分布多元高斯混合模型公式:其中里面有两个参数一个是u特征均值,一个是协方差矩阵混合高斯模型使用条件 m(训练样本数量)>n(特征数量),否则协方差矩阵不可逆,无法求解。吴老师的建议是m>=10n。还有一种情况是样本特征中出现了冗余特征,既有x1=x...原创 2018-07-14 20:52:30 · 668 阅读 · 0 评论