学习笔记2
1 重要的python库
1.1 numpy
·快速高效的多维数组对象ndarry
·基于元素的数组计算或数组间数学操作函数
·用于读写硬盘中基于数组的数据集的工具
·线性代数操作、傅里叶变化以及随机数生成
·成熟的C语言API,允许python扩展和本地的C或C++代码访问NumPy的数据结构和计算设施
1.2 pandas1
1、pandas提供了高级数据结构和函数,这些数据结构和函数的设计师的利用
结构化、表格化数据的工作快速、简单、有表现力.
2、DataFrame 用于实现表格化、面向列、使用行列标签的数据结构
(其实可以看做是数据库存放数据)
3、Series 一维标签数组对象
1.3 matplotlib
一款用于制图及其他二维数据可视化的python库
1.4 SciPy
用于科学计算领域正对不同标准问题域的包集合,后面再详细介绍
1.5 scikit-learn
机器学习工具包
·分类:SVM、最近邻、随机森林、逻辑回归等
·回归:Lasso、岭回归等
·聚类:k-means、谱聚类等
·降维:PCA、特征选择、矩阵分解等
·模型选择:网格搜索、交叉验证、指标矩阵
·预处理:特征提取、正态化
1.6 statsmodels
是一个统计分析包,与scikit-learn相比,它包含有统计学、经济学算法。
·回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等
·方差分析
·时间序列分析:AR、ARMA、VAR、ARIMA
·非参数方法:核密度估计、核回归
·统计模型结果可视化
(比较重视推理、而scikit-learn比较专注于预测)
2 Jupyter notebook 使用
(记录一下一些Jupyter的简单命令,便于后面查找)
1.首先在Anaconda Prompt里面输入jupyter notebook
2.之后将网址复制到网页上进行打开。
3.按下tab键之后,代码会补全
4.内省:在变量名的前后使用问号(?)可以显示一些关于该对象的概要信息
在函数后加上(??)会显示函数信息
pandas中有很多特征通常与R核心的实现或者R的附加库提供的 ↩︎