【书籍简介】数据科学导论：从零开始学Julia编程和数据科学(数学)

N6008

已于 2022-03-10 11:08:44 修改

阅读量325

点赞数 1

分类专栏： Books 文章标签： julia 机器学习数据分析大数据

于 2022-03-08 13:35:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_40896008/article/details/123341504

版权

Books 专栏收录该内容

6 篇文章 2 订阅

订阅专栏

目录

前言

这是一篇关于《Introduction to Datascience: Learn Julia Programming, Math & Datascience from Scratch》的书籍简介。本书可当做作者 Karthikeyan A K 向自己解释数据科学的一次尝试，适合想入门Julia的编程小白阅读，或许不够专业，但也值得一读。

本文标题之所以将书名中的“Math & Datascience”翻译为数据科学(数学)，是因为作者在1.2中提到“Computers are good and are very fast at math, and data science is math.”（数据科学即数学），因此，标题如果将其翻译为数据科学和数学，就显得有点赘余了。

在这里插入图片描述

本书内容大致可分为四个部分：数据科学、Julia语言、数学运算 和 机器学习（作者尚未完成的神经网络部分可以当做机器学习部分的补充），以下是这四个部分的内容简介。

1. 数据科学

第一部分旨在说明数据科学的重要性和分析数据的方法。

首先，作者列举了读者需要了解的预备知识：

GNU/Linux，并给出相关学习网站
数学，在本书中即数据科学（包括微积分、矩阵、概率统计等），它将数据处理与计算机科学相结合，可参考资源1和资源2进行学习

想要动手运行书中的程序，读者最好有一台基于GNU/Linux并且性能不错的计算机，这样就能跟随作者一起探索数据科学了！

在这里插入图片描述

回顾人类发展的历史进程（从石器时代、能源时代，到现在的信息时代），如今，我们的生活充斥着大量数据，如果使用数据科学对其加以处理和分析，它们将为我们带来更多价值。

作者介绍数据科学的顺序并非如瀑布模型般顺流而下，而是在各个部分之间建立了一些共识和因果联系。

在专业环境中，数据科学可被应用于以下几个阶段：数据收集、数据整理、数据统计、数据可视化、机器学习（特征工程、神经网络训练）、数据缩放等，当使用数据科学为某个项目找到满意的解决方案时，还可以将整个流程自动化，如下图所示的流水线：

在这里插入图片描述

分析数据有两种方法：

通过机器学习预测未发生的事
对已发生的事进行描述性分析

为了帮助读者更好地理解这两种分析方法，作者列举了两个形象生动的例子：一是调研伦敦霍乱的源头，二是分析拿破仑进攻俄国失败的原因。

放大后的伦敦霍乱死亡数据地图
拿破仑军队的规模变化图

这两个例子不仅让我们知道数据分析的重要性，还展现了数据可视化的魅力，更为直观的可视化形式能加深我们对数据的理解、加快解决问题的速度。

接着，作者继续引用一些生活中的实例，介绍了 机器学习、人工智能 和 数据科学 之间的联系和区别。
在这里插入图片描述

2. Julia

第二部分主要介绍Julia语言的配置操作及其编程基础。

既然是从零开始学，作者就先介绍了Julia的安装步骤，接着逐步演示了在 Julia REPL 模式下一些简单的计算和操作方法，包括清屏、退出和获取帮助等。

在这里插入图片描述

此外，Julia也有很多第三方开发的库(包)，也可以方便地使用终端命令进行增删。

值得注意的是，数据科学家通常不会使用REPL和文本编辑器来编码，而是使用一种 Jupyter Notebook 的交互方式，于是作者继续演示了对应 IJulia 的安装方法、进入 Jupyter Lab 以及选择对应内核等基本配置操作。

在这里插入图片描述

接着就是一些编程基础，包括基本的运算操作、字符串、布尔运算、比较运算、条件循环语句、各种运算符，还有数组、元组、集合、字典的特性及其操作，以及注释说明等。

作者通过一个与服务员交谈的例子说明：编程与现实世界非常相似，顺便引出了函数的概念和相关介绍，给出的编程实例简洁易读。
在这里插入图片描述

此外，作者还用了一些篇幅介绍正则表达式的使用、结构体构建、模块导入、不同格式的文件对应操作、绘图工具包及其使用方法等，也包含尚未完成的DataFrames包介绍和程序调试部分。

3. 数学运算

第三部分内容可以当做是Julia编程基础向机器学习部分的过渡，作者主要演示了向量和矩阵运算、Sigmoid函数的使用和概率统计学相关参数的计算等操作。

书中的“math”和“mathematics”需要区分一下，前者倾向于数据科学理论，而后者更倾向数学运算操作。

4. 机器学习

在最后一部分，作者主要介绍了机器学习算法和神经网络相关的操作，包括遗传算法、K-近邻算法、决策树模型、K-均值聚类算法，以及梯度下降、线性拟合的过程，也涵盖调参、拟合、反向传播等重要操作。

补充说明

本文插图均来源于书内
本书每个章节基本都有对应的讲解视频和Jupyter源码链接，另附带一些延伸学习的资源链接
本书作者是印度人，书中有几幅印度神像插图，与内容并无实质性联系

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【书籍简介】数据科学导论：从零开始学Julia编程和数据科学(数学)

【书籍简介】数据科学导论：从零开始学Julia编程和数据科学(数学)
复制链接

扫一扫

专栏目录

N6008 CSDN认证博客专家 CSDN认证企业博客

码龄7年

12: 原创

121万+: 周排名

13万+: 总排名

5433: 访问

: 等级

166: 积分

39: 粉丝

36: 获赞

4: 评论

68: 收藏

私信

关注

热门文章

分类专栏

Books 6篇
GNN 3篇
Tips 1篇

最新评论

《计算之魂》读书笔记 04
N6008: 可能是作者的习惯吧，不加1也行
《计算之魂》读书笔记 04
来自火星的猴子: 122行，三数中值分隔法，中间元素下标为啥要+1
《计算之魂》阅读笔记 02
N6008: 勘误：【思考题 1.3.1】的最后一句话，结测试 → 经测试
【书籍简介】数据科学导论：从零开始学Julia编程和数据科学(数学)
N6008: 【本书特点总结】实例形象生动，易读，且可操作性强，但专业性不高，各章节之间关联性较弱。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。