《Python数据科学手册》学习笔记

前言

软件安装注意事项

Miniconda的可用下载地址:Miniconda — Conda documentation。但Miniconda需自己安装各Python程序包(新手不适)。建议直接使用Anaconda。

第1章

1.4 IPython魔法命令

1.4.1 粘贴代码块:%paste和%cpaste

%paste和%cpaste在Jupyter Notebook中不可用(%lsmagic魔法函数列表中也无对应项)。报错如下:

UsageError: Line magic function `%paste` not found.

实测在IPython中可用。

1.7 与shell相关的魔法命令

此处删不掉对应临时目录(本节内容应是在Anaconda Powershell Prompt下运行ipython):

In [20]: rm -r tmp

1.9 代码的分析和计时

1.9.3 用%lprun进行逐行分析

Python3.7下安装line-profiler需Visual Studio 2017支持。

第2章

2.4 聚合:最小值、最大值和其他值

2.4.3 示例:美国总统的身高是多少

In[13]:!head -4 data/president_heights.csv

对应Windows系统下用type指令查看文件内容:

In[13]:!type data\president_heights.csv

第3章

3.6层级索引

3.6.2 多级索引的创建方法

In[17]:pd.MultiIndex(levels=[['a', 'b'], [1, 2]],

               labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

Out[17]:MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 0, 1, 1], [0, 1, 0, 1]])
d:\Users\Administrator\Anaconda3\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: the 'labels' keyword is deprecated, use 'codes' instead

现版本’labels’已经被’codes’取代。

3.7 合并数据集:Concat与Append操作

3.7.2 通过pd.concat实现简易合并

现版本axis=’col’需改为axis=’columns’

In[8]:        df3 = make_df('AB', [0, 1])

df4 = make_df('CD', [0, 1])

print(df3); print(df4); print(pd.concat([df3, df4], axis='columns'))

3.9 累计与分组

3.9.1 行星数据

通过Seaborn下载行星数据失败:

In[2]:        import seaborn as sns

planets = sns.load_dataset('planets')

URLError: <urlopen error [Errno 11004] getaddrinfo failed>

将电脑DNS设置改为114.114.114.114有可能修复

3.11 向量化字符串操作

3.11.3 案例:食谱数据库

新建一个字符串,将所有行JSON对象连接起来,然后再通过pd.read_json来读取所有数据:

In[20]:     # read the entire file into a Python array

with open(' 'data/recipeitems-latest.json', 'r') as f:

                      # Extract each line

                      data = (line.strip() for line in f)

                      # Reformat so each line is the element of a list

data_json = "[{0}]".format(','.join(data))

会报错:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position 4058: illegal multibyte sequence

需改为:

In[20]:     # 将文件内容读取

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python数据科学手册是由Python科学计算社区发布的一本数据科学参考书,它包含了Python数据科学领域最为优秀的几种工具、框架、模块和算法。这本书的作者是Jake VanderPlas,他是高级Python数据科学家、斯隆研究学者和美国西北大学地球和行星科学系教员。本书被称为Python数据科学领域的权威参考书之一,被广泛应用于各种科学研究、商业分析等数据科学领域。 Python 数据科学手册的主要内容包括:NumPy、Pandas、 Matplotlib、SciPy、Scikit-Learn等数据科学相关的模块,以及更多关于这些模块的使用和相关文献。此外,该书还涵盖了Python的基础知识,例如控制流程、函数、模块、面向对象编程等内容,为读者提供了Python编程的指导。 Python数据科学手册为初学者和专业人士提供了一个广泛的数据科学资源和工具箱。初学者可以从书籍中学习Python数据科学的基础知识,同时通过各种示例代码和小案例的实践,了解Python科学计算社区的一些基础概念。专业人士可以通过进一步的探索和实践,掌握Python的高级功能和技术,并将这些知识应用于实际数据科学应用中。 此外,Python数据科学手册的一大优势是它符合在线阅读和参考的需求,对于需要反复查看和使用的知识点,可以方便地在电脑、手机等设备上进行阅读和搜索。Python数据科学手册不仅是一本优秀的数据科学参考书,也是一个出色的学习资源和学习工具,当然,它也是Python数据科学社区不断创新进步的最好见证。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值