视频来源:慕课网http://www.imooc.com/video/12975
IPython Shell:命令行执行python语句。IPython是交互式python,比传统的Shell更加好用。
python脚本:以xxx.py文件名。即命令行编程的集合。
目录:
一:变量
二:函数
三:包
四:numpy包
五:数据可视化(应用matplotlib包)
六:pandas
正文:
一:变量:大小写敏感。可以用type(name)来查看变量name的类型
float : 实数
int : 整数
str : 字符串
bool : True,false
list : familyHeigh = [1.73,1.68,1.71,1.89]
list用来给一组数据提供单一名字,可以包含任何类型,也可以包含不同类
二:函数:
round(data,n):指定数字data截取到小数点后第n位进行四舍五入
上图:capitalize() : 使字符串的首字母变大写
replace() : 替代
函数append() : 例如fam.append(aa) : 在list类型fam中的最后增加aa字符串。
三:包:
包是含脚本的目录。
Numpy : 针对数据科学的包
Matplotlib : 可以做数据可视化的包
Scikit-learn : 专门用来做及其学习的包
.....
包的安装:当python的包多了以后,你会发现一个个去下载然后安装挺麻烦的,耗时耗力。java里面有maven,ivy来帮你管理jar包,而类似的python里有pip来完成这个任务。
在下列网址中下载get-pip.py(上图中的网址不对。)
https://pip.pypa.io/en/latest/installing.html
好了,以后你需要什么包,就上pypi网站查询就是了。查好以后输入pip install命令就可以安装这个包了。具体格式如下:
pip install SomePackage # latest version
pip install SomePackage==1.0.4 # specific version
四:numpy包:
数组和list的比较:
numpy包里面的数组很好用,而且还可以用一条语句实现对两个数组的对应元素相互计算。但是元素只能有一种类型,如果用一条语句对两个list里的数据进行计算就会报错。而python里的list可以包含不同类型。其他都基本一样。如下图:
五:数据可视化(应用matplotlib包)
数据中重要的一环,探索数据,信息展现。
线图:
散点图:
.scatter(x,y):画散点图函数,x为横轴,y为纵轴。
直方图:
.hist(list,bin):画散点图函数,list是输入数据,bin是把该数据分成多少块。函数会自动算出每个块的边界,进而算出每个bin里面有多少个数据点。
数据可视化的个性花样作图例子:
(1)基本图:
(2)给轴家标签:
(3)标题:plt.title('World Population Projection')
(4)刻度:plt.yticks([0,2,4,6,8]) 在y轴上展现刻度
plt.yticks([0,2,4,6,8],['0','2B','4B','6B','8B','10B']) 在y轴上展现刻度和单位(B是万亿)
(5)加入历史数据(本例子中加入了三个点population = [ , , ,]+population 加入的三个点的list是历史数据,直接加上就行)。用绿色填充。
六:pandas
处理数据,高效容易
构造dataFrame只需要把外部文件导入进来就可以了。csv是存储数据集经常用的文件格式
而csv文件怎么导入进来呢?如下:
获取列只需要把列标放到中括号里就行了,而要想获取一行就不能只用中括号了,要用 . loc["BR"]