数据科学入门之关于jupyter notebook的基本使用及numpy数据库的基本调用(内含一些报错整改思路)

前言

介绍一下数据科学

   在IBM(国际商用机器公司)官网上对数据科学的解释是数据科学将数学和统计学、专业编程、高级分析,人工智能和机器学习与特定主题专业知识相结合,获取隐藏在组织数据中的切实可行的洞察。这些洞察可用于指导决策和战略规划。

    关于数据科学,我十分喜欢在中国人民大学信息资源管理学院里面写的一句话

    以数据赋能社会,以历史预见未来

    数据科学是个应用十分广泛的技术领域,尤其在计算机领域和金融领域,对人工智能,金融科技,机器学习(深度学习)感兴趣的同学们都可以了解一下ds(data science)这一个十分有趣的领域,在某些方面与ML有些异曲同工之妙,在刚刚所提到领域的小伙伴们都可以了解一下,说不定对自己的研究有些新的思路和发现,当然不是刚刚所提领域同学们也可以了解有些ds,这也能帮助我们拥有一个多元融合,跨学科交叉的思维,也有利于我们未来的发展以及对事物发展的看法,总之,希望大家能提起对ds的兴趣,以及进一步了解ds。同时我之所以学习学习ds,也是兴趣所驱动,并没有科研压力和学习压力,也希望大家能放轻松来学习,提起兴趣。

jupyuter notebook

    小伙伴们,今天我们来讲讲数据科学的入坑必走之路,讲讲jupyter notebook的安装使用及在jupyter notebook上调用numpy数据库的一些基本操作,里面主要涉及到到了在数据科学领域无处不在的数组和矩阵,感兴趣的小伙伴们可以停下脚步来看看哈。

    关于jupyter notebook,这是很多ds课第一节课要讲的东西,怎么去安装呢,我是在anaconda上面download了一个安装包,再用cmd(指示命令符)通过输入下面的内容来实现的

python --version

这一句话呢,是让你的pc来告诉你,你python的版本(ps:过低的版本是没有办法去实现的喔

如果你python的版本已经到了3.X.X的时候,我们就可以输入以下内容了

pip install jupyter notebook

 然后在cdm中再次输入jupyter notebook

这时候cmd中就会出现这个页面了,一般来讲这时候是会跳到jupyter notebook的页面的,如果没有,也没有关系,我们可以通过复制最cmd中最后几行中出现的网站进行copy,从而进入到jupyter notebook上面的页面。

打开以后就会跳出这个页面,这时候我们去点击new这个按钮,找到python3这个选项,打开一个新的文件,可能有的同学在这个环节找不到python3(当jupyter提示到找不到kernel时),莫急,这时候我们再次拿出的cmd神器,在输入出输入以下指令

python -m pip install ipykernel

这个指令是来安装ipkernel包的

针对当前用户安装ipkernel,这时候我们输入下面这一个指令即可

python -mipykernel install --user

紧接着,我们再次用cmd调出jupyter notebook,这时候在jupyter notebook上就应该可以看见python3这一个选项啦。

jupyter notebook怎么用

对文件的管理

在home页里面,我们可以多选或者部分选择文件

当我们选中某一个文件的时候,我们就可以对该文件进行重命名和删除。

基本使用

如果你用的是coursea上的notebook,那么你可以根据coursea上的指示去实现,如果不是,你可以跟着我来

我们去点击Untitled1这里时,我们就可以对文件进行重新的命名,如下图所示

我们今天先教大家数组,因此大家可以先输入array来对该文件进行命名。

代码

不过在教大家array前,我们先讲讲hello wrold的实现,看到这里,有的同学可能就会笑了,不就是hello wrold吗,在这里还真不一样。

试过的同学可能已经发现啦,在键盘上输入enter后尽然在换行,而不是去实现我们的功能,那怎么才能实现呢,这时候,你需要按住shift键,再去按enter

我们还可以按上面的运行符进行实现该操作。

在头顶的位置,我们可以选择模式哈,现在我们来写个标题

我们先把模式调到markdown,再输入下面的指令

# 哈哈,今天真开心,又学会了jupyter notebook啦

我们来跑一下

这样我们又写了一个标题啦

numpy数据库的调用

list

来现在,我们讲讲array怎么实现

首先,我们导入numpy这一个数据库,如下指令一样

我们解释一下这句话是什么意思,在这里,我们导入了numpy这个数据库,并把numpy命名为np(这是大多数数据科学家的习惯做法,为了代码的可读性,我们也这样写

如果没有下载numpy的小伙伴可以再次打开cmd,输入下面的指令

pip install numpy

就可以了

通过这样的方式,我们创建了第一个列表,并成功地将其打印出来了

在这里,可能有的同学不能像我这样进行换行,我给大家讲讲吧,我们只需同时按住enter键和shift键即可实现。

array

通过利用numpy里有的函数,我们可以将刚刚的列表转化成数组(array),这是一个一维数组,我们也可以生成一个二维的数组,如下

注意哈,这里多了一个中括号

通过上面的shape(看其为几乘几的array),size(查看里面究竟有几个数),dtype(查看其中的数据类型)

在dtype上,我们要进行了一个对比,一个是纯整数类型的,一个是整数类型和浮点数结合的一个数组,我们不难发现,在这里,它和其他编译语言一样,选择了最能容载的数据类型。

接下来,我们讲讲切片问题

调用numpy数据库时候,和python的切片一样,在np.arrange(X,Y,Z)中,X的意思是首项开始的地方,Y的意思是最后一项(最后一项不算),Z是步数。(如有不懂可以看上面的对比)

如果我们不规定步数又会怎么样

它的步数会自动调成1

上面是来生成0的矩阵,上面第一个是一维的,第二是生成几×几的array。

我们亦可以通过eye(X)来生成X乘X的单位向量。

有细心的小伙伴可能已经发现了,这些数据都是带小数点,那我们来看看这鞋数据究竟是上面数据类型的,

我们用dtype就可以发现这个是浮点数类型的(这个要注意哈)

我们也可以随机地生成一个数组,通过下面的操作

下面这个是生成了一个整数类型(后缀为int

通过添加reshape这个函数,我们可以改变数组的形式。

在这里,我们随机创建了两个array

我们对它们进行一些基本的运算吧

在这里,我们发现除法行不通啊,为什么呢,这里的四则运算是对应项进行运算的,二在b里面,有个数据为0,我们在换个数据试试,跑一下,看看有没有变化

这里就解决了刚刚的问题了

unique这个函数呢可以告诉我们哪些数据是出现过的

sum这里是给出了每一列的总和
而下面那里是计算了第0行的总和

通过max这个函数,我们也可以知道里面最大的哪一项

矩阵

怎么改成矩阵呢

在前面加上np.mat就可以了

这里我们可以试一下它的乘法

结合文件

好了,我们再讲讲怎么结合文件来操作

这里我们需要用到pickle这个数据库,python版本在3.0以上自动搭配

我们先导入和生成一个矩阵

在这里,我们打开一个文件,前面为命名,后面为打开方式(write+二进制打开)

再把x的数据带到f里面

这时候,我们输入ls(如果是Linux系统则是!ls

这时候我们发现这个文件已经存在了

我们再打开f看看里面是不是和x一样的东西

我们再把x保存一下,前面是文件名

再输ls,看看有没有

好了,大功告成

numpy的基本操作就是这些了

致谢

对数据科学感兴趣的伙计们可以关注一下这个专栏喔,谢谢啦

我会时不时地把学到的知识和大家分享一下,这也算是一个学习日记吧,希望你能喜欢

  • 11
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值