机器学习课程1-笔记

课程1

  • 授课讲师: 黄志洪(tigerfish),ITPUB创始人,中山大学海量数据与云计算研究中心主任。数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。
  • R语言、Hadoop、Python、Matlab,推荐的这些软件,是为了不用写程序,核心不是掌握工具
  • 是一门算法课程、面向数学建模,如电子商务数据、推荐系统。脱离具体软件讲算法
  • 懂原理,要经得起别人问什么。
  • 基本统计知识、线性代数。90%讲数据分析
  • 怎样把复杂的算法用浅显易懂的方式和例子,向非专业人士清晰表达

数学为什么难?剥去包装,其实都是很简单的东西。例如;关系代数,规范化、关系代数、第一范式、第二范式。不是知识本身很抽象,而是时机不到。

数据分析系统中的位置
- 面向工具
- 面向应用领域
- 面向算法与建模

大数据与云计算

目标

  • 各算法细节
  • 算法结合场景
  • 熟悉机器学习和数据挖掘软件,浅尝即止
  • 数据分析师、算法设计师(数学基础好、比较聪明,对算法做些微调)、具备算法设计能力的高层次程序员

参考书

  • Data+Mining+Practical+Machine+Learning+Tools+and+Techniques,有个副产品Weka
  • 数据挖掘、韩家伟(美国),河南郑州大学、伊利诺伊州大学,20多个诺贝尔奖。非常简练、只读相关章节就会收获很大。
  • 国内机器学习,没前两本好,对初学者不太好
  • Machine Learning in Action 和 机器学习案例解析。这两本数例子多算法讲的少
  • 神经网络与机器学习。比如图形识别、比如识别雪梨、苹果,神经网络。特别难懂,100个买有99个看不懂
  • Building Machine Learing Systems with Python, Python里面有些扩展包

什么是机器学习

  • Wiener ,开创出控制论,40年代写的,就提出机器智能的前景,机器控制人类,而当时甚至还没有计算机,非常具有前瞻性。

  • 机器学习是门交叉学科,模拟实现人类的学习能力,以获取新的知识或技能,重新组织已有知识结构使之不断改善自身性能。

  • 与人工智能的区别,人工智能是个很老的名词,新瓶装旧酒,自动推理、自然语言理解、模式(常见的东西有规律的东西)识别。
  • 机器学习与数据挖掘,是同一座山峰的不同侧影
  • 提高体验和降低人力成本
  • 第二次机器革命-以具备人类智能为核心,机器占主导(第一次是动力系统革命)

机器学习比较活跃的领域

  • 数据分析、挖掘:提炼有价值的知识、规则和模式,如推荐.
    • 贝叶斯分类器-判定垃圾邮件。云上判断更准确,
    • 分词、计算概率。学习集,扔到分类器中判断
    • 网页自动分类:如百度分类,爬虫抓回来。学习集分好类的文章、分词。
    • 评论自动分析:
  • 图形和语言识别:OCR、手写输入、指纹识别、虹膜识别、车牌识别
    • 小波分析,早先信号分析,把复杂波形变成有规律的波形,叫做傅里叶展开
    • 比傅里叶展开更适合做高频信号,提高识别度
  • 机器人,
    • 电脑博弈,下象棋:局面标准化、局面评估函数、棋谱学习
    • 决策树、如何走下一步
    • 开局、子比较多,计算比较长。所以不用评估函数、改为棋谱学习。

机器学习软件

  • R S(statistics)语言进行数据探索、统计分析、作图的解释型语言.
    • 与S-Plus商业兼容。
    • 发明者是生物学家、非软件行业和统计行业。
    • 比C和Java更方便统计分析
    • http://www.r-project.org
    • packages看扩展包
    • CRAN Task Views CRAN是R的下载网站统称。Task Views按着任务来组织
    • 人工神经网络比较差
  • Weka
    • Waikato(新西兰的大学) Environment for Knowledge Analysis Weka也是新西兰的一个大学
    • R是命令行的,Weka是图形。
    • 基于JAVA环境下开源的机器学习以及数据挖掘软件
    • 天生容易像大数据迁移(Hadoop等大数据是Java的)
    • 下载:官网或者Petaho
    • 不过weka作为开源项目,官方竟然还在用老旧的svn,gitHub有其镜像,可以搜到很多个,我选了个点赞多的
  • Matlab
    • matrix+laboratory
    • 和Mathematica、Maple并称三大数学软件
    • 神经网络包特别强大
    • 太贵,可以下载试用版 Matlab R2012B,
  • Python
    • 荷兰1989年创立python,在谷歌公司,I wrote python
    • 在操作系统里面写脚本
    • 开发网络爬虫、写网站类式php
    • 可以把各种语言粘合在一起
    • 性能比较差,适合原型开发,小孩学编程语言的首选。等到开发产品时用c、java替换掉
    • NumPy多维数组
    • SciPy算法封装
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值