pythonspark教材_清华大学出版社-图书详情-《Python+Spark 2.0+Hadoop机器学习与大数据实战》...

前 言

机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测。机器学习技术不断进步,应用相当广泛,例如推荐引擎、定向广告、需求预测、垃圾邮件过滤、医学诊断、自然语言处理、搜索引擎、诈骗侦测、证券分析、视觉辨识、语音识别、手写识别等。

近年来Google、Facebook、Microsoft、IBM等大公司全力投入机器学习研究与应用。以Google 为例,Google 已经将机器学习运用到垃圾邮件判断、自动回复、照片分类与搜索、翻译、语音识别等功能上。同时,各大主流Hadoop发行版公司加强了对机器学习的投入,比如Cloudera对spark ml的完整支持、星环科技基于Spark自主研发的机器学习产品Discover。在不知不觉中,机器学习已经让日常生活更为便利。

为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练。大数据的兴起带来了大量的数据以及可存储大量数据的分布式存储技术,例如Hadoop HDFS、NoSQL……还有分布式计算可进行大量运算,例如 Spark 基于内存的分布式计算框架/架构,可以大幅提升性能。

本书的主题是Python+Spark+Hadoop 机器学习与大数据分析。使用Python 开发Spark 应用程序,具有多重优势:不仅可以享有Python 语言特性所带来的好处,即程序代码简明、较易学习、高生产力等,再加上Spark 基于内存的分布式计算框架/架构,还可以大幅提升性能,非常适合需要多次重复运算的机器学习算法,并且Spark 还可以存取 Hadoop HDFS 分布式存储的大量数据。

本书希望能够用浅显易懂的原理介绍和说明以及上机实践操作、范例程序来降低机器学习与大数据技术的学习门槛,带领读者进入机器学习和大数据的领域。当然,整个机器学习与大数据的生态系统非常庞大,需要学习的东西很多。读者通过本书学习,对机器学习和数据有了基本的概念后就比较容易踏入这个领域了,以便深入研究其他的相关技术。

林大贵

more >

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值