前言:
Python是搞Data Science的不二选择。对于新手来说(比如我) ,需要快速学会使用Python的常用package。这篇博客主要就是总结一下用Python搞Data Science的大体步骤和一些细节。 PS. 我在美国的第一个学期,选了一门课叫做 Data Science Fundamentals,课程链接。使用的教材是《The Data Science Design Manual》 ,这本书的可读性很强,涉及面广,深入浅出,是给我们上课的老师自己写的一本书。
Data Science Project Main Steps
数据科学的项目大多遵循如下四个步骤:获得数据,数据预处理,建模和分析,评估和展现。
Step | Name | Packages |
---|---|---|
1 | Get Data | Pandas, Beautiful soup, … |
2 | Data Preprocessing | Pandas, Numpy, NLTK, Scikit-image, … |
3 | Modeling and Analysis | Scikit-learn, Numpy, Scipy, Sympy, Tensorflow, … |
4 | Evaluate and Present | Jupyter Notebook, Matplotlab, Seaborn, … |
Step 0: Environment
做 data science 项目最好使用anaconda,这个东西可以理解为:Python + 很多很多packages。安装完anaconda之后,大部分需要的packages都有了,比如 numpy, pandas, matlabplot等等。
命令 | 说明 |
---|---|
conda install xxx | 缺啥packages就补啥,类似于 pip install,不过既然用了conda,就不用pip了 |
conda list –revisions | 万一conda环境蹦了,看看你做了什么,类似于 git log |
conda install –revision [revision number] | 退回到以前的conda版本,类似于 git reset –hard xxx |
conda create -n myenv python=3.6 | 建立一个conda环境,类似于virtualenv -p /usr/bin/… myenv |
conda activate myenv | 激活某个conda环境 |
Step 1: Getting the Data
Python是一门面向对象的语言(object oriented programming)。但是在做data science的过程中,需要切换思维,切换成面向数组/表的编程(array or table oriented porgramming),基本上,你的数据都是以数组/表的形式组织的。这种思维在面向GPU编程的时候也是很需要的。
Pandas
Pandas is used to get data from a