机器学习
garrulousabyss
Github: https://github.com/Gogogoforit
展开
-
周志华《机器学习》读书笔记(一)
本书前几章讲的都是基本术语,最硬核的数学部分很少,所以比较简单。机器学习的主要内容,是从数据产生模型,再由模型做出相应的判断和预测。比如已经知道某房屋所在街区的其他房屋的价格,通过给这些面积,价格等各异的其他房屋的数据进行分析,产生模型,利用此模型来预测本房屋的市场价格。一. 基本术语对一批西瓜,我们能够观察了解到色泽、根蒂、敲声等特征。比如现在得到的数据如下所示:原创 2017-10-05 16:25:41 · 12011 阅读 · 0 评论 -
周志华《机器学习》读书笔记(二)
一. 经验误差与过拟合错误率:分类错误的样本数,占样本总数的比例。精度:分类正确的样本数,占样本总数的比例。显然有,错误率+精度=1 恒成立误差:学习器的实际预测输出,与样本的真实输出之间的差异。训练误差/经验误差:学习器在训练集上的误差泛化误差:学习器在新样本上的误差显然我们的目标是得到“泛化误差”尽可能小的学习器,也即在新样本上可以表现得尽可能好的学习器。这原创 2017-10-11 00:29:37 · 2996 阅读 · 2 评论 -
《机器学习与实践》读书笔记及代码(一)
第一章:简介篇案例:“良/恶性乳腺癌肿瘤预测”完整代码样例# coding: utf-8# In[1]:import pandas as pd# In[2]:df_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv')df_test = pd.read_csv('../Da...原创 2018-07-15 13:47:21 · 322 阅读 · 0 评论 -
《机器学习与实践》读书笔记及代码(二)
基础篇:支持向量机(分类)#从sklearn.datasets里导入手写体数字加载器from sklearn.datasets import load_digits#从通过数据加载器,获得手写体数字的数码图像数据,并存储在digits变量中digits = load_digits()#检视数据规模和特征维度digits.data.shape#从sklearn.cross_val...原创 2018-07-29 14:12:55 · 268 阅读 · 0 评论 -
《机器学习与实践》读书笔记及代码(三)
#波士顿地区,用线性回归,去预测房价from sklearn.datasets import load_bostonboston = load_boston()print boston.DESCRfrom sklearn.cross_validation import train_test_splitimport numpy as npX = boston.datay = b...原创 2018-07-29 22:46:19 · 235 阅读 · 0 评论 -
【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度
本文转自 http://zhwhong.ml/2017/04/14/ROC-AUC-Precision-Recall-analysis/在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更...转载 2018-10-02 06:50:22 · 772 阅读 · 0 评论 -
数据不平衡之SMOTE算法
在企业的数据分析中,很少会遇到正负样本数据比例平衡的状况。通常情况是,绝大多数为正样本,而只有极少数(几个或者十几个)负样本。在这种情况下,不论是用LR,SVM或者基于提升方法的随机森林,直接用该数据集进行学习的效果都不会太好,原因是这些方法的学习结果都会偏向于样本较多的一类。另一个方面,对学习结果进行评估时,假如正样本占95%,负样本仅占5%,这样甚至不需要学习,直接把所有新样本预测为正,准确率...转载 2018-10-02 07:00:03 · 3254 阅读 · 0 评论