四、数据分析-算法
农村詹姆斯
在数据分析和数据库方面和大家共同进步!
展开
-
K近邻算法(KNN)原理小结
监督学习——KNN定义:k-近邻(k-nearest neighbor,k-NN)是一种基本分类与回归方法;简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类;即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。优点:简单、容易实现;缺点:需要大量的空间存储所有的已知实例,算法复杂度高;...原创 2017-12-06 17:06:20 · 477 阅读 · 0 评论 -
深入浅出,一篇超棒的机器学习入门文章
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?...转载 2017-12-11 10:53:24 · 8769 阅读 · 6 评论 -
十大统计技术,包括线性回归、分类、重采样、降维、无监督学习等。
统计学习方法的经典研究主题包括: 线性回归模型 感知机 k 近邻法 朴素贝叶斯法 决策树 Logistic 回归与最大熵模型 支持向量机 提升方法 EM 算法 隐马尔可夫模型 条件随机场 之后我将介绍 10 项统计技术,帮助数据科学家更加高效地处理大数据集的统计技术。在此之前,...转载 2017-12-25 10:43:41 · 5903 阅读 · 0 评论 -
区分识别机器学习中的分类与回归
预测建模是关于学习从输入到输出的函数映射的问题,这个映射称作函数逼近。分类是给一个样本预测离散型类别标签的问题。回归是给一个样本预测连续输出量的问题。本教程分为以下 5 个部分:1. 函数逼近2. 分类3. 回归4. 分类与回归的对比5. 分类问题和回归问题之间的转换函数逼近预测建模就是转载 2017-12-18 20:33:23 · 440 阅读 · 0 评论 -
随机森林原理
随机森林(Random Forest,RF)1、前言:集成学习(ensemble learning)概念:集成学习通过训练多个分类器,然后把这些分类器组合起来,以达到更好的预测性能。集成学习算法之一:Boosting,它的特点是各个弱学习器之间有依赖关系。他通过迭代地训练一系列的分类器,每个分类器采用的样本的选择方式都和上一轮的学习结果有关。例如在AdaBoost中,之前分类错转载 2017-12-19 09:14:24 · 895 阅读 · 0 评论 -
机器学习算法常用指标总结
1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称...转载 2019-02-02 11:18:24 · 457 阅读 · 0 评论