python数据工程师-Python绝技:运用Python成为顶级数据工程师

仅仅会Python编程是不够的。想成为一名优秀的数据分析工程师,还需要有全方位、透彻理解问题本质的能力,善于把实际的工作任务拆解成准确的数据问题,并运用相关的知识来解决。

本书恰好是从这个角度出发的,它条分缕析地帮助你认识任务的本质,教你从数据的角度来思考、拆解任务,并最终顺利地达成目标。

助你跨越从Python编程到工程应用的鸿沟,成为顶级数据分析师!

前言

数据分析、数据挖掘、深度学习及云计算,是当前最热门的技术领域。1830年前后,Gauss、Legendre 等数学家奠基了数据分析的基础理论;1943 年,心理学家Warren McCulloch 和数理逻辑学家Walter Pitts 首次提出神经网络;19 世纪80 年代,Hinton、Yann LeCun 等人提出BP 算法及卷积神经网络;2006 年,深度置信网络研究成果发表。至此,数据建模理论研究的宏观大厦已初见雏形。

历史是如此的巧合,正当需要海量数据集和工程技术方案来处理数据时,云计算应运而生。2003 年,谷歌发表关于Google File System、Google Bigtable 及MapReduce 三篇论文,让大数据处理技术风靡全球。以此为基础,2010 年前后,整个云计算的概念及技术体系已经非常完善了。

数据理论的完善、工程技术的发展与无数创意的结合,使得2010 年以后,整个人类社会进入了“数据时代”。无论是精细化运营,还是人工智能产品,对数据的应用无处不在;无论是政府机构,还是私有的大、中、小型企业,使用数据的热情都达到空前的高度。

2014 年,我加入百度公司,从事大数据处理及数据建模等相关工作。回首过往,在该领域的几年中,我经历了云计算从雾里看花到如今的方兴未艾;人工智能的初现端倪到如今的高潮迭起。作为一名前线的数据工程师, 我深刻认识到,对我及大多数工程师而言,既无法像Jeff Dean 等一样提出经典的大数据计算模型;也无法像Hinton、Yann LeCun 一样提出具有深远影响的建模算法。我们所要做的,就是学习与汲取当前的理论与技术,结合应用领域,实现工程应用。这也是我写本书的初衷,希望能从宏观框架上梳理已有的数据分析理论与工程实施技术,并搭建相对系统的知识体系;同时,阐述工作实践中遇到的问题及解决的思路。

Python 简洁易懂的语法、丰富的类库、与大数据组件的无缝集成等诸多特点,使其成为数据工程师的首选编程语言。当然,只是掌握Python 还完全不足以成为顶级数据工程师,因此,本书介绍数据处理知识体系,并以Python 实现相关代码示例,力求让读者能使用Python 完成数据处理的各个环节。

本书的第1 章和第2 章,简要说明了数据处理领域的基本概念,旨在让读者对数据处理工作有宏观的了解。第3 章~第5 章,主要讲述数据分析理论。笔者按照难易程度,将其划分成三个部分,即基础分析、数据挖掘和深度学习。第6章针对大数据分析,介绍了在工程实施过程中需要用到的工程组件和架构模式,并以一个具体的案例说明整个数据工程的实施流程。

本书适合以下读者阅读:① 对人工智能和云计算感兴趣的读者;② 刚进入数据处理领域的IT 工程师;③ 希望从宏观上梳理数据处理知识体系的读者;④ 用Excel、SPSS、Python 做过数据分析的数据分析师;⑤ 应用过HDFS、Kafka等大数据组件的IT 工程师。

本书能够完稿,得益于外界诸多的帮助与指导。感谢数据领域的先驱者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他们的著作是数据时代最重要的理论依据;感谢在百度工作中遇到杨振宇、李华青、王珉然、陈合等许多优秀的同事和领导,在和他们一起试错、交流的过程中,让我取得巨大的进步;感谢本书的编辑刘皎,在她不厌其烦地督促下,本书才从凌乱的只言片语中编辑成书;特别感谢女友孙万兴,在本书的撰写过程中给予的谅解与支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值