1.1 统计学习方法概论(个人笔记与随感)

个人随感,不可轻信,如有意见,欢迎指点。

1.1 统计学习

1. 统计学习的特点
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning).

数据可以揭示客观规律发展的趋势性,即从历史推未来,因为事件发生具有要素,并且事件的发生具有规律, 要素可以统计,通过统计得到的记录对事件发生的预测分析。

统计学习的主要特点是:

  • (1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的。怎么说?
  • (2)统计学习以数据为研究对象,是数据驱动的学科;

事件的发生都是留有痕迹的,对于现在的人类所有的能力来说,有庞大的事件发生痕迹都是对我们可见的(因为我们的感知能力(技术)在不断发展),而事件又是具有规律性的,既然事件的整个发生过程都是对我们可见,我们自然可以捕捉并分析其中的规律,进而在之后事件发生的开始我们就可以预测事件的整个发生过程,举个栗子,宇宙从前是对我们不可见的,然后由于技术的发展(观测技术),我们能够感知到宇宙的更多运动过程(也可理解为事件),我们当然可以不断的去跟踪事件,由于事件具有其规律性(动总是伴随着规律性), 所以我们就可以去探究宇宙的起始与结束,这里的数据就是事件发生的痕迹,由痕迹可以推出过去、起始点、以及变化阶段(就像一辆车以匀速运动,我们只需知道其中一段距离,就可以知道它的速度,进而就可以判断它的未来位移状况,为何是判断而不是笃定,因为预测的过程是根据过去,我们无法验证数据百分百与事件联系,考虑偶然性)。

我们的感知技术也在不断的进步,人类一边在扩大感知范围,比如物联网,我们就可以通过给物体嵌入智能系统进而通过更多的视角或者接口来探知更多事件发生的痕迹。

任何活动都离不开数据,而统计仅仅是因为它专注与数据本身,即并非为了 实现 B 而用 A ,而是对 A 更感兴趣,身边的所有人都在用数据,但没有人会真正去研究数据,而真正研究数据的工作,我们把它交给了统计。

  • (3)统计学习的目的是对数据进行预测与分析(即分析事件发生的痕迹)。
  • (4)统计学习以方法为中心, 统计学习方法构建模型并应用模型进行预测与分析;
  • (5)统计学习是概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

科学的一个重要过程就是结合,比如物联网的出现就是感知技术、计算机科学技术以及信息通信技术的发展而解锁的,没错,就像我们玩游戏角色的各个属性有了一定的提升自然就会解锁新的技能。
数学是一门神奇的学科,我们都知道有信息世界与物理世界,也就是我们生活的世界,信息世界可以将物理世界用信息节点与联系的方式抽象出来,我认为数学也可以做到, 就像原子与生物体,数学更像是世界的最底层,它反映着我们无法看到的客观规律,只有我们通过数字去抽象生活中的事物,运用数学就会发现事物的规律。

Herbet A . Simon 曾对“学习”给出以下定义; “如果一个系统能够通过执行某个过程改进它的性能,这就是学习”。(alterable、A way to get better)

统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。 很显然这是对于计算机系统而言, 如果对于我们人类来说,这个词叫成长。

2. 统计学习的对象

我们已经说了,统计学习,也就是我们所了解的机器学习,它是对于计算机系统而言的, 学习的主体是计算机系统,那么学习的对象是什么? 即通过学习什么来“成长”?

————数据(data)

不得不说,这再适合不过了,人适合数据吗?不适合,人的大脑是用来创造东西的,不是用来记忆东西的,而计算机系统恰恰是解决数据的好手,我们之前讲过我们通过探究事件发生的痕迹来寻找规律,我们不是通过像叙事一样的方法来把痕迹记录下来,而是通过数据(即需要逻辑归纳),比如说,有一个人好几天买了西瓜(刚看了周志华的书),他发现好的西瓜好像有规律,他想探索这个规律,预测以后买的西瓜,他不会这样写:
Day1 今天去李大婶的摊上买了颗西瓜,李大婶给我拿了一棵颜色比较青绿的西瓜,我敲了一下,声音有点沉闷,我回去切开吃,发现西瓜很甜。
Day2 今天去王大爷家吃西瓜,他家西瓜也很甜,我看了一下,颜色也比较青绿……
说实话,这算是有心人了,但是也架不住这样记录,
所以我们需要逻辑归纳,这就是数据,删掉那些与客观规律没有关系的,你要关注西瓜,你管他是李婶儿还是王叔,应该这样记录:
1 颜色:青绿,敲声:沉闷 …
2 颜色: 青绿, 敲声:…
……

由于计算机对于数字的处理得心应手,只需要经过一定的处理,数据很容易就变成了计算机善于处理的数字,计算机系统通过数据进行学习,提取数据的特征,抽象出数据的膜性能,发现数据中的知识,这里的数据可以延伸到各种数字、文字、图形、视频、音频数据以及它们的组合。

统计学习关于数据的基本假设:

同类数据具有一定的统计规律性。这是统计学习的前提。

这里的同类数据是指具有某种共同性质的数据,比如互联网网页,数据库中的数据等,由于它们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

最终目的

对数据的预测与分析是通过构建概率统计模型实现的,统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。

统计学习的方法

  • 从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布的产生的。
  • 并且假设要学习的模型属于某个函数的集合,称为假设空间
  • 应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;
  • 最优模型的选取由算法实现。

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。 称为统计学习方法的三要素。 简称为 模型(model)策略(strategy)和算法(algorithm).

实现统计学习方法的步骤如下:

  • 得到一个有限的训练数据集合;
  • 确定包含所有可能的模型的假设空间,即学习模型的集合;
  • 确定模型选择的准则,即学习的策略;
  • 实现求解最优模型的算法,即学习的算法;
  • 通过学习方法选择最优模型;
  • 利用学习的最优模型对新数据进行预测或分析。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
毕业设计,基于SpringBoot+Vue+MySQL开发的公寓报修管理系统,源码+数据库+毕业论文+视频演示 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本公寓报修管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息,使用这种软件工具可以帮助管理人员提高事务处理效率,达到事半功倍的效果。此公寓报修管理系统利用当下成熟完善的Spring Boot框架,使用跨平台的可开发大型商业网站的Java语言,以及最受欢迎的RDBMS应用软件之一的MySQL数据库进行程序开发。公寓报修管理系统有管理员,住户,维修人员。管理员可以管理住户信息和维修人员信息,可以审核维修人员的请假信息,住户可以申请维修,可以对维修结果评价,维修人员负责住户提交的维修信息,也可以请假。公寓报修管理系统的开发根据操作人员需要设计的界面简洁美观,在功能模块布局上跟同类型网站保持一致,程序在实现基本要求功能时,也为数据信息面临的安全问题提供了一些实用的解决方案。可以说该程序在帮助管理者高效率地处理工作事务的同时,也实现了数据信息的整体化,规范化与自动化。 关键词:公寓报修管理系统;Spring Boot框架;MySQL;自动化;VUE
毕业设计,基于SpringBoot+Vue+MySQL开发的社区医院管理系统,源码+数据库+毕业论文+视频演示 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古以来的短板,有效的提升管理的效率和业务水平。传统的管理模式,时间越久管理的内容越多,也需要更多的人来对数据进行整理,并且数据的汇总查询方面效率也是极其的低下,并且数据安全方面永远不会保证安全性能。结合数据内容管理的种种缺,在互联网时代都可以得到有效的补充。结合先进的互联网技术,开发符合需求的软件,让数据内容管理不管是从录入的及时性,查看的及时性还是汇总分析的及时性,都能让正确率达到最高,管理更加的科学和便捷。本次开发的社区医院管理系统实现了病例信息、字典表、家庭医生、健康档案、就诊信息、前台、药品、用户、用户、用户表等功能。系统用到了关系型数据库中王者MySql作为系统的数据库,有效的对数据进行安全的存储,有效的备份,对数据可靠性方面得到了保证。并且程序也具备程序需求的所有功能,使得操作性还是安全性都大大提高,让社区医院管理系统更能从理念走到现实,确确实实的让人们提升信息处理效率。 关键字:社区医院管理系统;信息管理,时效性,安全性,MySql
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值