Python Data Science Cheat Sheet,数据科学总结

本文是关于Python数据科学的速查表,涵盖了环境搭建、数据获取、预处理、建模分析、评估呈现等关键步骤。重点介绍了Pandas、Beautiful Soup、数据清洗、Sklearn、Jupyter Notebook和数据可视化工具的使用。
摘要由CSDN通过智能技术生成

前言

Python是搞Data Science的不二选择。对于新手来说(比如我) ,需要快速学会使用Python的常用package。这篇博客主要就是总结一下用Python搞Data Science的大体步骤和一些细节。 PS. 我在美国的第一个学期,选了一门课叫做 Data Science Fundamentals,课程链接。使用的教材是《The Data Science Design Manual》 ,这本书的可读性很强,涉及面广,深入浅出,是给我们上课的老师自己写的一本书。




Data Science Project Main Steps

数据科学的项目大多遵循如下四个步骤:获得数据,数据预处理,建模和分析,评估和展现。

Step Name Packages
1 Get Data Pandas, Beautiful soup, …
2 Data Preprocessing Pandas, Numpy, NLTK, Scikit-image, …
3 Modeling and Analysis Scikit-learn, Numpy, Scipy, Sympy, Tensorflow, …
4 Evaluate and Present Jupyter Notebook, Matplotlab, Seaborn, …


Step 0: Environment

做 data science 项目最好使用anaconda,这个东西可以理解为:Python + 很多很多packages。安装完anaconda之后,大部分需要的packages都有了,比如 numpy, pandas, matlabplot等等。

命令 说明
conda install xxx 缺啥packages就补啥,类似于 pip install,不过既然用了conda,就不用pip了
conda list –revisions 万一conda环境蹦了,看看你做了什么,类似于 git log
conda install –revision [revision number] 退回到以前的conda版本,类似于 git reset –hard xxx
conda create -n myenv python=3.6 建立一个conda环境,类似于virtualenv -p /usr/bin/… myenv
conda activate myenv 激活某个conda环境


Step 1: Getting the Data

Python是一门面向对象的语言(object oriented programming)。但是在做data science的过程中,需要切换思维,切换成面向数组/表的编程(array or table oriented porgramming),基本上,你的数据都是以数组/表的形式组织的。这种思维在面向GPU编程的时候也是很需要的。

Pandas

Pandas is used to get data from a

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值