南京大学MOOC用python玩转数据课程笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ingwfj/article/details/77249026
常用的python数据处理库:numpy,pandas,matplotlib,IPython,SciPy,scikit-learn,Theano。
对于python自身属性的定义,可以视作为胶水语言可以与其他语言集成开发,是一门脚本语言,是一门OOP语言。
python官网上的PyPI页面代表python软件包索引,一般使用pip命令进行安装python库,一般python环境都具备pip命令,在shell命令行中执行该命令进行库的安装。
print()输出到std out,input()代表std in,返回的str类型。
续行使用“\”,注释使用“#”。
某个函数或模块或类对象不会用则使用help(“arg”)。采用“dir(__builtins__)”命令得到python内置异常、内置函数和命令。对于非内置函数,需要使用import将其module导入或者使用from module import arg将特定的函数或类导入,一个完整的python文件就是一个python模块。python中的包是一个由模块和子包定义的有层次的文件目录结构。而python库就是一组具有相关功能的module的集合,python的特点在于具有大量标准库、第三方库和自定义module。
python3中的range()函数类似于generator,不是一次性生成所有数。python中循环由while和for支持。
列表解析形式为[i for i in range(9)]会一次性生成所有的数,适用于数据量不大时,而生成器解析形式为(i for i in range(9))适用于数据量大的时候。
对于for与else搭配使用的方法,如果for中代码从break处跳出则不会执行else语句,如果正常结束循环则执行else。
python函数参数中的默认参数一般放在参数列表最后。一旦使用关键字参数传值则所有的参数都必须是关键字参数传值。同时函数可以作为参数传递给另一个函数。python的函数包括了def函数和lambda函数。
python也是支持递归调用的。
python中常用的内置库:math,os,random,datetime.

对于使用python进行网络数据的获取,即爬取,分为两个阶段:抓取和解析。中小型抓取数据使用Requests第三方库,大型使用Scrapy框架,解析数据有BeautifulSoup库和re模块。
创建list的快捷方式为[expreesion for expr in sequence if condition],即list comprehension。
函数返回多个数据时使用的是tuple。
从两个list中生成dict方法是dict(zip(list1,list2))。
dict典型操作包括键值查找、更新、添加、成员判断和删除成员,hash(key),keys(),values(),items(),update(),clear()。
可变长位置参数:*arg,可变长关键字参数:**arg。
每一种数据结构实际作为对象存在,有自己的内置属性、内置函数等,包括list、set、tuple、dict、str等。
Scipy是一个针对于数学、科学和工程的python第三方库集合,包括了Numpy(线性代数和数学运算)、pandas、IPython、Scipy library、Matplotlib、Sympy。

Numpy的基本数据结构为ndarray,数组,官网介绍地址:https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html

pandas的Series是定长有序字典,功能强大,官网介绍地址:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html?highlight=series

pandas的DataFrame是一个表格型的数据结构,有一组有序的列,类似于数据库的表,具有强大的统计功能,官网介绍地址:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html?highlight=dataframe


后期章节主要讲解通过第三方库方法实现数据获取、准备、整理、显示、选择、统计分析。使用Requests库中requests.get(url)获取指定数据,通过re模块的re.compile()进行编译,re.findall()进行查找,通过pandas.DataFrame()建立DataFrame对象。通过网站下载json格式或csv格式的数据文件,通过pandas.read_csv()直接生成DataFrame对象,通过pandas的merge()函数合并对象。

机器学习库scikit-learn实现了诸多的ML算法,聚类方法涉及到它的KMeans,fit()和predict()方法。Matplotlib主要用于python绘图,类似于Matlab。pandas也支持绘图功能。

csv文件使用逗号分隔文本。pandas中提供的to_excel()函数可以将内容写入excel文件中,read_excel()可以从excel中直接读取数据。
python中处理图像的库有PIL、OpenCV和Skimage。 
展开阅读全文

没有更多推荐了,返回首页