python简单语法及第三方库的一些简单介绍

最新推荐文章于 2024-04-28 23:56:14 发布

小鎮後生

最新推荐文章于 2024-04-28 23:56:14 发布

阅读量1.1k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/qq_43470809/article/details/110562876

版权

目录：
> 1.python语言概述
2.python语言基本语法元素
3.基本数据类型
4.程序的控制结构
5.函数与代码复用
6.组合数据类型
7.文件和数据的格式化
8.Python计算生态
9.Python标准库概览
10.Python第三方库概览
11.第三方库纵览（python学习具体方向）

1.python语言概述
程序运行方式：交互式
文件式
编写方法：输入（input）
处理（process）
输出（output）
语言特点：通用性
语言简洁
生态高产
平台无关
强制可读
支持中文

2.python语言基本语法元素
数字类型：整数，浮点数（小数），复数
字符串：用‘’或“”括起；{a[n:m]，切片：查看字符串n到m字符}; len(‘’)确定字符串的长度
赋值语句：‘=’表示复制，同步复制语句（同时对多个变量赋值）
引用语句：关键字import，采用（功能库名称.函数名称）对函数进行调用。
分支语句：

if 条件：
						语句块

循环语句：

while 条件：
						语句块

Input()函数：变量 = input（‘提示性文字’）
Type（）：查看数据类型
eval（）函数：计算不同数字类型，常与input连用
Print（）函数：用于输出字符串，变量值；print（“…{}…”.format(变量，变量)）；print（参数，end=‘\n’），end参数默认表示换行，平时未写出。

3.基本数据类型
整数类型：二进制，十进制，八进制，十六进制
浮点数类型：科学计数法e
复数类型：虚部用j或J表示，1不能省略

数值运算操作符：
**表示次幂，//表示商的整数部分
abs(x):取绝对值
pow(x,y):x的y次幂
round(x，y):对x四舍五入，保留y个小数位。
\:转义符
\n：换行
\\:反斜杠

字符串的索引：字符串或字符串变量[n:m]

format()：format()内的变量对应前面的{};

控制格式：{}内<左对齐，>右对齐，^居中对齐，{：-}其中-自动填充;
精度表示：{:.2f}.format(变量)，保留两位小数；

类型的格式控制:b,二进制；x,十六进制

字符串的基本操作：“+”连接；“x*n”复制n次；……

字符串的处理方法：
str.lower（）,返回小写；
str.upper(),返回大写；
str.split(a):以a对字符串进行分割；
str.count(a):返回字符串a的出此出现次数；
str.replace(old，new)：替换；
str.center(width,fillchar):填充；
str.strip(a):去掉两端的a字符串；
str.joio(a):在每个字符中间插入a字符
类型判断和转换：str(x)将x转换为字符串
ASCII表：chr（）：十进制转换为字符；ord（）：字符转换为十进制数

4.程序的控制结构
分支结构：
单分支结构：

if（条件）：
	    语句块

and：与关系 or：或关系 not：单个条件的否关系

二分支结构:

if（条件）：
		语句块1
else：
		语句块2

多分支结构：

if（条件1）：
		语句块1
elif（条件2）：
		语句块2
		……
else：
		语句块n

循环结构：
遍历循环：

for 循环变量 in 遍历结构（字符串，文件，range（），组合数据类型）：
								语句块

无限循环：
1.

 while（条件）:
							    		语句块

if（条件）：
			语句块1
	else：
			语句块2

在这种扩展模式中，当while循环正常执行之后，程序会继续执行 else 语句中内容。else语句只在循环正常执行后才执行，因此，可以在语句块2中放置判断循环执行情况的语句。

break和continue循环控制结构：如果有2层或多层循环，break退出最内层循环。continue用来结束当前当次循环，即跳出循环体中下面尚未执行的语句，但不跳出当前循环。
程序异常处理：try-expect：

try:
	<语句块1> 
except:
	<语句块2>

语句块1是正常执行的程序内容，当执行这个语句块发生异常时，则执行except保留字后面的语句块2。

5.函数与代码复用
函数的定义：

def <函数名>(<参数列表>):
      < 函 数 体 >  
      return <返回值列表>

函数的使用：定义后的函数不能直接运行，需要经过“调用” 才能运行。调用函数的方法：

<函数名>(<实际赋值参数列表>)

使用步骤：1.函数定义2.函数调用3.函数执行4.函数返回
参数的传递：

def <函数名>(<非可选参数列表>, <可选参数> = <默认值>):
            <函数体>
            return <返回值列表>

变量的作用域：
局部变量：在函数内部使用的变量，仅在函数内部有效，当函数退出时变量将不再存在。
全局变量：全局变量指在函数之外定义的变量，在程序执行全过程有效。局部变量想在函数外部使用时，需要提前使用保留字global声明。
代码复用：即是封装函数，实现函数的多次使用，并尽可能减少函数间参数和返回值的数量。

6.组合数据类型
集合类型：
定义：元素之间无序，相同元素在集合中唯一存在。

操作符：交集（&）、并集（|）、差集（-）、补集（^）

操作函数：
S.add(x)：如果数据x不在集合S中，将x增加到s
S.remove(x)：如果x在集合S中，则移除；不在产生keyword异常
S.clear()：移除S中所有数据项
len（S）：返回集合S元素个数
x in S：如果x是S的元素，返回True，否则返回False
x not in S：如果x不是S的’元素，返回True，否则返回False

序列类型：一个元素向量，元素之间存在先后关系，通过序号访问，元素之间不排他。序列类型的典型代表是字符串类型和列表类型。序列类型使用相同的索引体系，即正向递增序号和反向递减序号。
x in S：如果x是S的元素，返回True，否则返回False
x not in S：如果x不是S的’元素，返回True，否则返回False
s+t：连接s和t
sn或ns：将序列s复制n次
s[i]: 索引，返回序列的第i个元素
s[i:j]: 切片，返回包含序列s第i到j个元素的子序列
s[i:j:k]: 步骤切片，以k为步数返回序列i到j个元素的子序列
len（s）：序列s的元素个数或长度
min（s）：序列s中最小元素
max（s）：序列s中最大元素
S.index（x）：序列s中第一次出现元素x的位置
s.count（x）：序列s中x出现的次数。

映射类型：“键-值”数据项的组合，每个元素是一个键值对，表示为(key, value)。映射类型的典型代表是字典类型。

列表定义：包含0个或多个元组组成的有序序列，属于序列类型。列表可以元素进行增加、删除、替换、查找等操作。列表没有长度限制，元素类型可以不同，不需要预定义长度。
列表类型用中括号（[]）表示，也可以通过list(x) 函数将集合或字符串类型转换成列表类型。

列表的索引：

 for	<循环变量>	in	<列表变量>:
                  <语句块>

列表的切片：<列表或列表变量>[N: M]或<列表或列表变量>[N: M: K]

list（x）：将x转变为列表类型。

列表的一些操作方法：
Ls.append(x):在列表最后增加一个元素x
Ls.insert(i,x):在列表ls第i个位置增加元素x
Ls.clear():删除ls所有元素
Ls.pop(i):将列表ls中第i项元素去除并删除
Ls.remove(x):将列表出现的第一个元素x删除
Ls.reverse():列表ls中元素反转
Ls.copy():生成一个新列表，复制ls中所有元素
del对列表元素或片段进行删除，使用方法如下：
del <列表变量>[<索引序号>] 或
del <列表变量>[<索引起始>: <索引结束>]

字典定义：其中，键和值通过冒号连接，不同键值对通过逗号隔开。字典类型也具有和集合类似的性质，即键值对之间没有顺序且不能重复。使用方式如下：

{<键1>:<值1>,	<键2>:<值2>,	… ,	<键n>:<值n>}

字典的索引：

字典中键值对的索引模式如下，采用中括号格式：
<值> = <字典变量>[<键>]

利用索引和赋值（=）配合，可以对字典中每个元素进行修改。

d[“201802”] = ‘新小红’
print(d)
{‘201801’: ‘小明’, ‘201803’: ‘小白’, ‘201802’: ‘新小红’}

使用大括号可以创建字典。通过索引和赋值配合，可以向字典中增加元素。

t = {}
t[“201804”] = “小新”
print(t)
{‘201804’: ‘小新’}
dict（）：生成一个空字典

字典操作方法：
d.keys() ：返回所有的键信息
d.values() ：返回所有的值信息
d.items() ：返回所有的键值对
d.get(key, default)：键存在则返回相应值，否则返回默认值
d.pop(key, default)：键存在则返回相应值，同时删除键值对，否则返回默认值
d.popitem()：随机从字典中取出一个键值对，以元组(key, value)形式返回
d.clear()：删除所有的键值对

如果希望删除字典中某一个元素，可以使用Python保留字del：

d = {“201801”:“小明”, “201802”:“小红”, “201803”:“小白”}
del d[“201801”]
print(d)
{‘201802’: ‘小红’, ‘201803’: ‘小白’}
字典类型也支持保留字in，用来判断一个键是否在字典中。如果在则返回True，否则返回False：

d = {“201801”:“小明”, “201802”:“小红”, “201803”:“小白”}
“201801” in d
True

“201804” in d
False

字典的遍历：

for	<变量名>	in	<字典名>
         <语句块>

for循环返回的变量名是字典的索引值。如果需要获得键对应的值，可以在语句块中通过get()方法获得。

d = {“201801”:“小明”, “201802”:“小红”, “201803”:“小白”}
for k in d:
print(“字典的键和值分别是：{}和{}”.format(k, d.get(k)))

7.文件和数据的格式化
文件类型：文本文件和二进制文件：信息按照非字符但特定格式形成的文件，例如，png 格式的图片文件、avi格式的视频文件。
文件的打开和关闭：
在这里插入图片描述
文件的操作方法：
语法形式：

<变量名> = open(<文件路径及文件名>, <打开模式>)

‘r’：只读模式，若文件不存在，返回异常filenotfounderror，默认值
‘w’：覆盖写模式，文件不存在则创建，存在则覆盖源文件（覆盖原文件是指关闭文件后再次打开文件写入时则覆盖原文件内容）
‘x’：创建写模式，文件不存在则创建，存在则返回异常fileexistserror
‘a’：追加写模式，文件不存在则创建，存在则在原文件最后追加内容。
‘b’：二进制文件模式
‘t’：文本文件模式，默认值
‘+’：与r/w/x/a一起使用，在原功能基础还上同时增加读写功能
‘f.read(size=-1)’:从文件读入整个文件内容。参数可选，如果给出，读入前size长度的字符串或字节流
‘f.readline(size=-1)’:从文件读入一行内容。。参数可选，如果给出，读入该行前size长度的字符串或字节流
‘f.readlines(hint=-1)’：从文件中读入所有行，以每行为元素形成一个列表。参数可选，如果给出，读入hint行
‘f.seek(offset)’:改变当前文件操作指针的位置，offset的值： 0：文件开头； 2: 文件结尾
文件的读写：

f = open(“<文件路径及名称>”, "r")  
for line in f:
# 处理一行数据
f.close()

一维数据的储存：
csv格式：用逗号分割的储存格式，可用wps文档打开

ls = ['北京', '上海', '天津', '重庆']
f = open("city.csv", "w")
f.write(",".join(ls)+ "\n")
f.close()

北京,上海,天津,重庆

f = open("city.csv", "r")
ls = f.read().strip('\n').split(",")
f.close()
print(ls)
['北京', '上海', '天津', '重庆']

二维数据处理：

f = open("cpi.csv", "r")  
ls = []
for line in f:
  ls.append(line.strip('\n').split(","))
f.close()
print(ls)

for row in ls:
	for item in row:
		<对第row行第item列元素进行处理>

8.Python计算生态
计算思维的本质：抽象和自动化

程序设计方法： 1.自顶而下 2.自底向上

Python内置函数：
abs(x):x的绝对值
all(x):组合类型变量x中所有元素都为真时返回True，否则返回False；若x为空，返回True
any(x):组合类型变量x中任一元素都为真时返回True，否则返回False；若x为空，返回False
bin(x):将整数x转换为等值的二进制字符串
bin(1010)的结果是’0b1111110010’
bool(x):将x转换为Boolean类型，即True或False bool(’’) 的结果是False
chr(i):返回Unicode为i的字符
chr(9996)的结果是’✌ ’

complex(r，i):创建一个复数 r + i*1j，其中i可以省略；complex(10,10)的结果是10+10j 创建字典类型
dict():dict()的结果是一个空字典{}
divmod(a,b):divmod(10,3)结果是一个(3,1)
eval(s):计算字符串s作为Python表达式的值
eval(‘1+99’)的结果是100
exec(s):计算字符串s作为Python语句的值
exec(‘a = 1+999’)运行后，变量a的值为1000
float(x):将x转换成浮点数 float(1010)的结果是1010.0 将整数转换为16进制字符串
hex(x):hex(1010)的结果是’0x3f2’
Input(s):获取用户输入，其中s是字符串，作为提示信息s可选
Int(x):将x转换成整数；int(9.9)的结果是9
list(x):创建或将变量x转换成一个列表类型
list({10,9,8})的结果是[8,9,10]
max(a1,a2,…):返回参数的最大值 max(1,2,3,4,5)的结果是5
min(a1,a2,…):返回参数的最小值 min(1,2,3,4,5)的结果是1
oct(x):oct(1010)的结果是’0o1762’
open(fname,m):打开文件，包括文本方式和二进制方式等；其中，m部分可以省略，默认是以文本可读形式打开
ord©:返回一个字符的Unicode编码值ord(‘字’)的结果是23383
pow(x,y):返回x的y次幂 pow(2,pow(2,2))的结果是16 打印变量或字符串x
print(x):print()的end参数用来表示输出的结尾字符
range(a,b,s):从a到b(不含)以s为步长产生一个序列 list(range(1,10,3))的结果是[1, 4, 7] 返回组合类型r的逆序迭代形式
reversed®:for i in reversed([1,2,3])将逆序遍历列表四舍五入方式计算n
round(n):round(10.6)的结果是11 将组合数据类型x转换成集合类型
set(x):set([1,1,1,1])的结果是{1}
sorted(x):对组合数据类型x进行排序，默认从小到大
sorted([1,3,5,2,4])的结果是[1,2,3,4,5]
str(x):str(0x1010)的结果是’4112’
sum(x): 对组合数据类型x计算求和结果，sum([1,3,5,2,4])的结果是15 返回变量x的数据类型
type(x):type({1:2})的结果是<class ‘dict’>

9.Python标准库概览
turle库（海龟）：基本的图形绘制；turtle库绘制图形有一个基本框架：一个小海龟在坐标系中爬行，其爬行轨迹形成了绘制图形。
turle库的导入：
（1）import turtle
turtle.circle(200)
（2）from turtle import *
circle(200)
（3）import turtle as t
t.circle(200)
窗体函数：
turtle.setup(width, height, startx, starty)
作用：设置主窗体的大小和位置参数：
width ：窗口宽度，如果值是整数，表示的像素值；如果值
是小数，表示窗口宽度与屏幕的比例；
height: 窗口高度，如果值是整数，表示的像素值；如果
值是小数，表示窗口高度与屏幕的比例；
startx：窗口左侧与屏幕左侧的像素距离，如果值是None
，窗口位于屏幕水平中央；
starty：窗口顶部与屏幕顶部的像素距离，如果值是None
，窗口位于屏幕垂直中央；

画笔状态函数：
在这里插入图片描述

画笔运动函数：

turtle.fd()函数最常用，它控制画笔向当前行进方向前进一个距离：
turtle.fd(distance) 别名：turtle.forward(distance)
作用：向小海龟当前行进方向前进distance距离参数：
distance ：行进距离的像素值，当值为负数时，表示向相反方向前进。

turtle.seth()函数用来改变画笔绘制方向：
turtle.seth(to_angle) 别名：turtle.setheading(to_angle)
作用：设置小海龟当前行进方向为to_angle，该角度是绝对方向角度值。参数：
to_angle ：角度的整数值。

turtle.circle()函数用来绘制一个弧形：
turtle.circle(radius, extent=None)
作用：根据半径radius绘制extent角度的弧形。参数：
radius ：弧形半径，当值为正数时，半径在小海龟左侧，当值为负数时，半
径在小海龟右侧；
extent : 绘制弧形的角度，当不给该参数或参数为None时，绘制整个圆形。

random库：使用random库主要目的是生成随机数，这个库提供了不同类型的随机数函数，其中最基本的函数是random.random()，它生成一个[0.0, 1.0)之间的随机小数，所有其他随机函数都是基于这个函数扩展而来。

from random import *
random()
0.5780913011344704

random()
0.20609823213950174

random库常用函数：
在这里插入图片描述

random库使用random.seed(a)对后续产生的随机数设置种子a
设置随机数种子的好处是可以准确复现随机数序列，用于重复程序的运行轨迹。对于仅使用随机数但不需要复现的情形，可以不用设置随机数种子。如果程序没有显式设置随机数种子，则使用随机数生成函数前，将默认以当前系统的运行时间为种子产生随机序列。：

from random import *
seed(10)
random()
0.5714025946899135

random()
0.4288890546751146

seed(10) #再次设置相同的种子，则后续产生的随机数相同
random()
0.5714025946899135

random()
0.4288890546751146

time库:处理时间是程序最常用的功能之一，time库是Python提供的处理时间标准库。time库提供系统级精确计时器的计时功能，可以用来分析程序性能，也可让程序暂停运行时间。

import time
time.localtime() time.struct_time(tm_year=2019, tm_mon=6, tm_mday=20, tm_hour=21, tm_min=8, tm_sec=43, tm_wday=3, tm_yday=171, tm_isdst=0)

功能：
时间处理：time.time() 、time.gmtime()、time.localtime() 、 time.ctime()
时间格式化：time.mktime()、time.strftime()、time.strptime()
计时：time . sleep()、time.monotonic()、time.perf_counter()

1.使用time.time()获取当前时间戳：

import time
time.time()
1561037016.339122

2.使用time.gmtime(secs)获取当前时间戳对应的struct_time对象：

time.gmtime(now)
time.struct_time(tm_year=2019, tm_mon=6, tm_mday=20, tm_hour=13, tm_min=23, tm_sec=36, tm_wday=3, tm_yday=171, tm_isdst=0)

3.使用time.localtime(secs)获取当前时间戳对应的本地时间的struct_time对象：

time.localtime(now)
time.struct_time(tm_year=2019, tm_mon=6, tm_mday=20, tm_hour=21, tm_min=8, tm_sec=43, tm_wday=3, tm_yday=171, tm_isdst=0)
注意结果与gmtime的区别，UTC时间已自动转换为北京时间。

4.使用time.ctime(secs)获取当前时间戳对应的易读字符串表示，内部会调用time.localtime() 函数以输出当地时：

time.ctime(now)
‘Thu Jun 20 21:11:00 2019’

5.时间格式化：
在这里插入图片描述

6.调用time.mktime(t)函数：

t = time.localtime(now)
time.mktime(t)
1516939876.0

time.ctime(time.mktime(t))
‘Fri Jan 26 12:11:16 2018’

7.time.strftime()函数是时间格式化最有效的方法，几乎可以以任何通用格式输出时间。该方法利用一个格式字符串，对时间格式进行表达。

lctime = time.localtime()
lctime
time. struct_ time( tm_ year= 2018 , tm_ mon= 1 , tm_ mday= 26 , tm_hour=12, tm_min=55, tm_sec=20, tm_wday=4, tm_yday=26, tm_isdst=0)

time.strftime("%Y-%m-%d %H:%M:%S", lctime) ‘2018-01-26 12:55:20’

strftime()方法的格式化控制符
在这里插入图片描述

8.strptime()方法与strftime()方法完全相反，用于提取字符串中时间来生成strut_time对象，可以很灵活的作为time模块的输入接口

timeString = ‘2018-01-26 12:55:20’
time.strptime(timeString,"%Y-%m-%d%H:%M:%S") time.struct_time(tm_year=2018, tm_mon=1, tm_mday=26, tm_hour=12, tm_min=55, tm_sec=20, tm_wday=4, tm_yday=26, tm_isdst=-1)

10.Python第三方库概览
PyInstaller库概述：PyInstaller是一个十分有用的Python第三方库，它能够在Windows、Linux、Mac OS X等操作系统下将Python 源文件打包，变成直接可运行的可执行文件。
通过对源文件打包，Python程序可以在没有安装Python 的环境中运行，也可以作为一个独立文件方便传递和管理。
PyInstaller库与程序打包：方法：
:>PyInstaller <Python源程序文件名>
执行完毕后，源文件所在目录将生成dist和build 两个文件夹。最终的打包程序在dist内部与源文件同名的目录中。
可以通过-F参数对Python源文件生成一个独立的可执行文件，如下：
:>PyInstaller -F <Python源程序文件名>
执行后在dist目录中出现了SnowView.exe文件，没有任何依赖库，执行它即可显示雪景效果。
在这里插入图片描述
jieba库概述：由于中文文本中的单词不是通过空格或者标点符号分割，中文及类似语言存在一个重要的“分词” 问题。
jieba（“结巴”）是Python中一个重要的第三方中文分词函数库。jieba库支持三种分词模式：精确模式，将句子最精确地切开，适合文本分析；全模式，把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
jieba.lcut(s)：是最常用的中文分词函数，用于精准模式，即将字符串分割成等量的中文词组，返回结果是列表类型。

import jieba
ls = jieba.lcut(“全国计算机等级考试Python科目”)
print(ls)
[‘全国’, ‘计算机’, ‘等级’, ‘考试’, ‘Python’, ‘科目’]

jieba.lcut(s, cut_all = True)：用于全模式，即将字符串的所有分词可能均列出来，返回结果是列表类型，冗余性最大。

import jieba
ls = jieba.lcut(“全国计算机等级考试Python科目”, cut_all=True)
print(ls)
[‘全国’, ‘国计’, ‘计算’, ‘计算机’, ‘算机’, ‘等级’, ‘考试’, ‘Python’, ‘科目’]

jieba.lcut_for_search(s)：返回搜索引擎模式，该模式首先执行精确模式，然后再对其中长词进一步切分获得最终结果。

import jieba
ls = jieba.lcut_for_search(“全国计算机等级考试Python科目”)
print(ls)
[‘全国’, ‘计算’, ‘算机’, ‘计算机’, ‘等级’, ‘考试’, ‘Python’, ‘科目’]

jieba.add_word()：函数，顾名思义，用来向jieba词库增加新的单词。

import jieba
jieba.add_word(“Python科目”)
ls = jieba.lcut(“全国计算机等级考试Python科目”)
print(ls)
[‘全国’, ‘计算机’, ‘等级’, ‘考试’, ‘Python科目’]

wordcloud库概述：词云以词语为基本单元，根据其在文本中出现的频率设计不同大小以形成视觉上不同效果，形成 “关键词云层”或“关键词渲染”，从而使读者只要“一瞥”即可领略文本的主旨。
wordcloud库是专门用于根据文本生成词云的 Python第三方库，十分常用且有趣。可视化词云：在生成词云时，wordcloud默认会以空格或标点为分隔符对目标文本进行分词处理。对于中文文本，分词处理需要由用户来完成。一般步骤是先将文本分词处理，然后以空格拼接，再调用 wordcloud库函数。
wordcloud库的核心是WordColoud类，所有的功能都封装在WordCloud类中。使用时需要实例化一个Word Coloud类的对象，并调用其 generate(text)方法将text文本转化为词云。
在这里插入图片描述
下面以Alice梦游仙境为例，展示参数、方法的使用：

from wordcloud import WordCloud
from scipy.misc import imread
mask = imread(‘AliceMask.png’)
with open(‘AliceInWonderland.txt’, ‘r’, encoding=‘utf-8’) as file:
text = file.read()
wordcloud = WordCloud(background_color=“white”,
width=800, \ height=600, \ max_words=200, \ max_font_size=80, \ mask = mask, ).generate(text)
#保存图片
wordcloud.to_file(‘AliceInWonderland.png’)

11.第三方库纵览（python学习具体方向）
~~Python网络爬虫库~~ ：requests和scrapy ：
requests库：一个简洁且简单的处理HTTP请求的第三方库，它的最大优点是程序编写过程更接近正常URL访问过程。这个库建立在Python语言的urllib3库基础上。 request库支持非常丰富的链接访问功能。
scrapy库：Python开发的一个快速的、高层次的Web获取框架。不同于简单的网络爬虫功能，scrapy框架本身包含了成熟网络爬虫系统所应该具有的部分共用功能，scrapy用途广泛，可以应用于专业爬虫系统的构建、数据挖掘、网络监控和自动化测试等领域。

~~数据分析~~ ：Python的一个优势方向，具有大批高质量的第三方库。这里仅介绍3个最常用的生态库：numpy、 scipy和pandas。

numpy：Python的一种开源数值计算扩展第三方库，用于处理数据类型相同的多维数组（ndarray），简称“数组”。
这个库可用来存储和处理大型矩阵，比Python语言提供的列表结构要高效的多。numpy提供了许多高级的数值编程工具，如：矩阵运算、矢量处理、N维数据变换等。numpy内部是C语言编写，对外采用Python语言进行封装，因此，在进行数据运算时，基于numpy的Python程序可以达到接近C语言的处理速度。numpy也成为 Python数据分析方向各其他库的基础依赖库，已经成为了科学计算事实上的“标准库”。

scipy：scipy是一款方便、易于使用、专为科学和工程设计的 Python工具包。在numpy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。它包括统计、优化、整合、线性代数、傅里叶变换、信号分析、图像处理、常微分方程求解等众多模块。

Pandas：是基于numpy扩展的一个重要第三方库，它是为了解决数据分析任务而创建的。Pandas提供了一批标准的数据模型和大量快速便捷处理数据的函数和方法，提供了高效地操作大型数据集所需的工具。p a n d a s 提供两种最基本的数据类型： S e r i e s 和

DataFrame，分别代表一维数组和二维数组类型。

文本处理方向：Python语言非常适合处理文本，因此，在这个方向也形成了大量有价值的第三方库。这里介绍 4个最常用的生态库：pdfminer、openpyxl、 python-docx、beautifulsoup4。

Pdfminer：是一个可以从PDF文档中提取各类信息的第三方库。与其他PDF相关的工具不同，它能够完全获取并分析P D F 的文本数据。 Pdfminer能够获取PDF中文本的准确位置、字体、行数等信息，能够将PDF文件转换为HTML 及文本格式。p d f m i n e r 包含两个重要的工具： p d f 2 t x t . p y 和dumppdf.py。pdf 2 txt. py能够从PDF文件中提取所有文本内容。 dumppdf.py能够把PDF文件内容变成XML格式，并进一步提取其中的图片。

Openpyxl：是一个处理Microsoft Excel文档的Python第三方库，它支持读写Excel的xls、xlsx、xlsm、xltx、xltm 等格式文件，并进一步能处理Excel文件中excel工作表、表单和数据单元。

python-docx：是一个处理Microsoft Word文档的Python 第三方库，它支持读取、查询以及修改doc、docx等格式文件，并能够对Word常见样式进行编程设置，包括：字符样式、段落样式、表格样式等，进一步可以使用这个库实现添加和修改文本、图像、样式和文档等功能。

beautifulsoup4库：也称为Beautiful Soup库或 bs4库，用于解析和处理HTML和XML。需要注意，它不是BeautifulSoup库。它的最大优点是能根据HTML和XML语法建立解析树，进而高效解析其中的内容。beautifulsoup4库将数据从HTML和XML文件中解析出来，它能够提供一种符合习惯的方法去遍历搜索和修改解析树，将专业的Web页面格式解析部分封装成函数，提供了若干有用且便捷的处理函数。

~~数据可视化~~ ：matplotlib、TVTK、mayavi。

~~用户图形界面方向~~ ：pyqt5、wxpython、pygtk。

~~机器学习~~ ：Scikit-learn、TensorFlow、Theano。

~~Web开发方向~~ :Django、Pyramid、Flask。

~~游戏开发方向~~ ：Pygame、 Panda3D、cocos2d。