Python语言程序设计第九章

第九章 Python计算生态概览

方法论
-纵览Python计算生态,看见更大的世界
实践能力
-初步编写带有计算生态的复杂程序

9.1 从数据处理到人工智能

数据表示 - > 数据清洗 - > 数据统计 - > 数据可视化 - > 数据挖掘 - > 人工智能
-数据表示:采用合适方式用程序表达数据
-数据清洗:数据归一化、数据转换、异常值处理
-数据统计:数据的概要理解,数量、分布、中位数等
-数据可视化:直观展示数据内涵的方式
-数据挖掘:从数据分析获得知识,产生数据外的价值
-人工智能:数据/语言/图像/视觉等方面深度分析与决策

1、Python库之数据分析
Numpy:表达N维数据的最基础库
-Python接口使用,C语言实现,计算速度优异
-Python数据分析及科学计算的基础库,支撑Pandas等
-提供直接的矩阵运算、广播函数,线性代数等功能
http://www.numpy.org

Pandas:Python数据分析高层次应用库
-提供了简单易用的数据结构和数据分析工具
-理解数据类型与索引的关系,操作索引即操作数据
-Python最主要的数据分析功能库,基于Numpy开发
Series = 索引 + 一维数据
DataFrame = 行列索引 + 二维数据
http://pandas.pydata.org

SciPy:数学、科学和工程计算功能库
-提供了一批数学算法及工程数据运算功能
-类似Matlab,可用于如傅里叶变换、信号处理等应用
-Python最主要的科学计算功能库,基于Numpy开发
在这里插入图片描述http://www.scipy.org

2、Python库之数据可视化
Matplotlib:高质量的二维数据可视化功能库
-提供了超过100种数据可视化效果
-通过matplotlib.pyplot子库调用各可视化效果
-Python最主要的数据可视化功能库,基于Numpy开发
在这里插入图片描述
在这里插入图片描述http://matplotlib.org

Seaborn:统计类数据可视化功能库
-提供了一批高层次的统计类数据可视化展示效果
-主要展示数据间分布、分类和线性关系等内容
-基于Matplotlib开发,支持Numpy和Pandas
在这里插入图片描述
http://seaborn.pydata.org/

Mayavi:三维科学数据可视化功能库
-提供了一批简单易用的3D科学计算数据可视化展示效果
-目前版本是Mayavi2,三维可视化最主要的第三方库
-支持Numpy、TVTK、Traits、Envisage等第三方库
在这里插入图片描述
http://doc.enthought.com/mayavi/mayavi/

3、Python库之文本处理
PyPDF2:用来处理pdf文件的工具集
-提供一批处理PDF文件的计算功能
-支持获取信息、分隔/整合文件、加密解密等
-完全Python语言实现,不需要额外依赖,功能稳定
例如:整合两个pdf文件代码:

from PyPDF2 import PdfFileReader, PdfFileMerger
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
merger.append(fileobj = input1, pages = (0, 3))
merger.merge(position = 2, fileobj = input2, pages = (0, 1))
output = open("document-output.pdf", "wb")
merger.write(output)

http://mstamy2.github.io/PyPDF2

NLTK:自然语言文本处理第三方库
-提供了一批简单易用的自然语言文本处理功能
-支持语言文本分类、标记、语法句法、语义分析等
-最优秀的Python自然语言处理库
例如:分析一个文本的树形结构,并分析之间的逻辑关系:

from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()

http://www.nltk.org/

Python-docx:创建或更新Microsoft Word文件的第三方库
-提供创建或更新.doc .docx等文件的计算功能
-增加并配置段落、图片、表格、文字等,功能全面
例如:

from docx import Document
document = Document()
document.add_heading('Document Title', 0)
p = document.add_paragraph('A plain paragraph having some ')
document.add_page_break()
document.save('demo.docx')

http://python-docx.readthedocs.io/en/latest/index.html

4、Python库之机器学习
Scikit-learn:机器学习方法工具集
-提供一批统一化的机器学习方法功能接口
-提供聚类、分类、回归、强化学习等计算功能
-机器学习最基本且最优秀的Python第三方库
在这里插入图片描述
http://scikit-learn.org/

TensorFlow:AlphaGo背后的机器学习计算框架
-谷歌公司推动的开源机器学习框架
-将数据流图作为基础,图节点代表运算,边代表张量
-应用机器学习方法的一种方式,支撑谷歌人工智能应用
例如:

import Tensorflow as tf
init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
res = sess.run(result)
print('result:', res)

http://www.tensorflow.org/

MXNet:基于神经网络的深度学习计算框架
-提供可扩展的神经网络及深度学习计算功能
-可用于自动驾驶、机器翻译、语音识别等众多领域
-Python最重要的深度学习计算框架
例如识别图片内容:
在这里插入图片描述http://mxnet.incubator.apache.org/

9.2 实例15:霍兰德人格分析雷达图

1、问题分析
雷达图 Radar Chart
在这里插入图片描述
雷达图是多特性直观展示的重要方式
霍兰德人格分析
-霍兰德认为:人格兴趣与职业之间应有一种内在的对应关系
-人格分类:研究型、艺术型、社会型、企业型、传统型、现实型
-职业:工程师、实验员、艺术家、推销员、记事员、社会工作者
霍兰德人格分析雷达图
-需求:雷达图方式验证霍兰德人格分析
-输入:各职业人群结合兴趣的调研数据
-输出:雷达图
-通用雷达图绘制:matplotlib库
-专业的多维数据表示:numpy库

2、“霍兰德人格分析雷达图”实例展示
在这里插入图片描述
在这里插入图片描述
3、“霍兰德人格分析雷达图”举一反三
目标+沉浸+熟练
-编程的目标感:寻找感兴趣的目标:寻(wa)觅(jue)之
-编程的沉浸感:寻找可实现的方法,思(zuo)考(mo)之
-编程的熟练度:练习、练习、再联系、熟练之

9.3 从Web解析到网络空间

1、Python库之网络爬虫
Requests:最友好的网络爬虫功能库
-提供了简单易用的类HTTP协议网络爬虫功能
-支持连接池、SSL、Cookies、HTTP(S)代理等
-Python最主要的页面级网络爬虫功能库

import requests
r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
r.status_code
r.headers['content-type']
r.encoding
r.text

在这里插入图片描述
http://www.python-requests.org/

Scrapy:优秀的网络爬虫框架(构建专业的网络爬虫系统)
-提供了构建网络爬虫系统的框架功能,功能半成品
-支持批量和定时网页爬取,提供数据处理流程等
-Python最主要且最专业的网络爬虫框架
在这里插入图片描述
https://scrapy.org

pyspider:强大的Web页面爬取系统
-提供了完整的网页爬取系统构建功能
-支持数据库后端、消息队列、优先级、分布式架构等
-Python重要的网络爬虫类第三方库
在这里插入图片描述
http://docs.pyspider.org

2、Python库之Web信息提取
Beautiful Soup:HTML和XML的解析库
-提供了解析HTML和XML等Web信息的功能
-又名beautifulsoup4或bs4,可以加载多种解析引擎
-常与网络爬虫库搭配使用,如Scrapy、requests等
在这里插入图片描述
http://www.crummy.com/software/BeautifulSoup/bs4

Re:正则表达式解析和处理功能库
-提供了定义和解析正则表达式的一批通用功能
-可用于各类场景,包括定点的Web信息提取
-Python最主要的标准库之一,无需安装
在这里插入图片描述http://docs.python.org/3.6/library/re.html

Python-Goose:提取文章类型Web页面的功能库
-提供了对Web页面中文章信息/视频等元数据的提取功能
-针对特定类型Web页面,应用覆盖面较广
-Python最主要的Web信息提取库

from goose import Goose
url = 'http://www.elmundo.es/elmundo/2012/10/28/espana/1351388909.html'
g = Goose({'use_meta_language': False, 'target_language': 'es'})
article = g.extract(url=url)
article.cleaned_text[:150]

https://github.com/grangier/python-goose

3、Python库之Web网站开发
Django:最流行的Web应用框架
-提供了构建Web系统的基本应用框架
-MTV模式:模型(model)、模板(Template)、视图(Views)
-Python最重要的Web应用框架,略微复杂的应用框架
在这里插入图片描述
https://www.djangoproject.com

Pyramid:规模适中的Web应用框架
-提供了简单方便构建Web系统的应用框架
-不大不小,规模适中,适合快速构建并适度扩展类应用
-Python产品级Web应用框架,起步简单可扩展性好
10行左右构建Web应用系统Hello World程序
在这里插入图片描述
https://www.trypyramid.com/

Flask:Web应用开发微框架
-提供了最简单构建Web系统的应用框架
-特点是:简单、规模小、快速
-Django>Pyramid>Flask
Hello World程序

from flask import Flask
app = Flask(_name_)
@app.route('/')
def hello_world():
    return 'Hello, World!'

在这里插入图片描述
http://flask.pocoo.org

4、Python库之网络应用开发
WeRoBot:微信公众号开发框架
-提供了解析微信服务器消息及反馈消息的功能
-建立微信机器人的重要技术手段
对微信每个消息反馈一个Hello Word

import werobot
robot = werobot.WeRoBot(token='tokenhere')
@robot.handler
def hello(message):
    return 'Hello, World!'

https://github.com/offu/WeRoBot

aip:百度AI开放平台接口
-提供了访问百度AI服务的Python功能接口
-语音、人脸、OCR、NLP、知识图谱、图像搜索等领域
-Python百度AI应用的最主要方式
在这里插入图片描述
https://github.com/Baidu-AIP/python-sdk

MyQR:二维码生成第三方库
-提供了生成二维码的系列功能
-基本二维码、艺术二维码和动态二维码
在这里插入图片描述
https://github.com/syInsfar/qrcode

9.4 从人机交互到艺术设计

1、Python库之图形用户界面
PyQt5:Qt开发框架的Python接口
-提供了创建Qt5程序的Python API接口
-Qt是非常成熟的跨平台桌面应用开发系统,完备GUI
-推荐的Python GUI开发第三方库
在这里插入图片描述
在这里插入图片描述
https://www.riverbankcomputing.com/software/pyqt

wxPython:跨平台GUI开发框架
-提供了专用于Python的跨平台GUI开发框架
-理解数据类型与索引的关系,操作索引即操作数据
-Python最主要的数据分析功能库,基于Numpy开发
Hello World 图形界面

import wx
app = wx.App(False)
frame = wx.Frame(None, wx.ID_ANY, "Hello World")
frame.Show(True)
app.MainLoop()

在这里插入图片描述
https://www.wxpython.org

PyGObject:使用GTK+开发GUI的功能库
-提供了整个GTK+、WebKitGTK+等库的功能
-GTK+:跨平台的一种用户图形界面GUI框架
-实例:Anaconda采用该库构建GUI

import gi
gi.require_version("Gtk", "3.0")
from gi.repository import Gtk
windows = Gtk.Window(title="Hello World")
window.show()
window.connect("destory", Gtk.main_quit)
Gtk.main()

在这里插入图片描述
https://pygobject.readthedocs.io

2、Python库之游戏开发
PyGame:简单的游戏开发功能库
-提供了基于SDL的简单游戏开发功能及实现引擎
-理解游戏对外部输入的响应机制及角色构建和交互机制
-Python游戏入门最主要的第三方库
在这里插入图片描述
在这里插入图片描述
http://www.pygame.org

Panda3D:开源、跨平台的3D渲染和游戏开发
-一个3D游戏引擎,提供Python和C++两种接口
-支持很多先进特性:法线贴图、光泽贴图、卡通渲染等
-由迪士尼和卡尼吉梅隆大学共同开发
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
http://www.panda3d.org

cocos2d:构建2D游戏和图形界面交互式应用的框架
-提供了基于OpenGL的游戏开发图形渲染功能
-支持GPU加速,采用树形结构分层管理游戏对象类型
-适用于2D专业级游戏开发
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
http://python.cocos2d.org/

3、Python库之虚拟现实
VR Zero:在树莓派上开发VR应用的Python库
-提供大量与VR开发相关的功能
-针对树莓派的VR开发库,支持设备小型化,配置简单化
-非常适合初学者实践VR开发及应用
Raspberry Pi(中文名为“树莓派”,简写为RPi,或者RasPi/RPI)是为学习计算机编程教育而设计,只有信用卡大小的微信电脑,其系统基于Linux。随着Windows10 IoT的发布,我们也将可以用上运行Windows的树莓派。
在这里插入图片描述
在这里插入图片描述
http://github.com/WayneKeenan/python-vrzero

pyovr:Oculus Rift的Python开发接口
-针对Oculus VR设备的Python开发库
-基于成熟的VR设备,提供全套文档,工业级应用设备
-Python+虚拟现实领域探索的一种思路
在这里插入图片描述
在这里插入图片描述
http://github.com/cmbruns/pyovr

Vizard:基于Python的通用VR开发引擎
-专业的企业级虚拟现实开发引擎
-提供详细的官方文档
-支持多种主流的VR硬件设备,具有一定通用性
在这里插入图片描述
在这里插入图片描述
http://www.worldviz.com/vizard-virtual-reality-software

4、Python库之图形艺术
**Quads:迭代的艺术 **
-对图片进行四分迭代,形成像素风
-可以生成动图或静图图像
-简单易用,具有很高展示度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https://github.com/fogleman/Quads

ascii_art:ASCII艺术库
-将普通图片转为ASCII艺术风格
-输出可以是纯文本或彩色文本
-可采用图片格式输出
在这里插入图片描述在这里插入图片描述
https://github.com/jontonsoup4/ascii_art

turtle:海龟绘图体系
Random Art:用随机艺术绘制专有艺术风格
在这里插入图片描述
https://docs.python.org/3/library/turtle.html

9.5 实例16:玫瑰花绘制

1、问题分析
玫瑰花绘制
-需求:用Python绘制一朵玫瑰花,献给所思所想
-输入:你的想象力
-输出:玫瑰花
-绘制机理:turtle基本图形绘制
-绘制思想:因人而异
-思想有多大、世界就有多大

2、“玫瑰花绘制”实例展示
**2、“玫瑰花绘制”实例展示**
3、“玫瑰花绘制”举一反三
艺术之于编程,设计之于编程
-艺术:思想优先,编程是手段
-设计:想法和编程同等重要
-工程:编程优先,思想次之
编程不重要,思想才重要!
-认识自己:明确自己的目标,有自己的思想(想法)
-方式方法:编程只是手段,熟练之,未雨绸缪为思想服务
-为谁编程:将自身发展与祖国发展相结合,创造真正价值

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
网络爬虫是一种自动获取网页内容的程序,常用于数据采集、搜索引擎等领域。Python是一种非常适合编写网络爬虫的语言,它具有简单易学、强大的库支持和丰富的第三方工具等优点。下面是网络爬虫的设计与实现测试。 1. 设计 网络爬虫的设计一般包括以下几个步骤: (1)确定目标网站和爬取内容 首先需要确定要爬取的目标网站和需要获取的内容。可以根据自己的需求选择合适的网站和内容,例如获取新闻、图片、音频、视频等。 (2)分析目标页面 了解目标页面的结构和规律,确定需要提取的信息所在的位置和方式。可以使用开发者工具查看页面的源代码,或者使用第三方工具如BeautifulSoup等解析网页。 (3)编写爬虫程序 根据目标页面的结构和规律,编写爬虫程序来获取所需的信息。可以使用Python的Requests库发起HTTP请求,使用正则表达式或BeautifulSoup等解析网页内容,再将结果保存到本地或数据库中。 (4)设置爬虫参数 在编写爬虫程序时需要设置一些参数,例如请求头、请求方式、超时时间、代理等,以便更好地模拟浏览器行为和防止被封IP。 (5)处理异常情况 在爬取过程中可能会遇到各种异常情况,例如页面不存在、网络连接超时、IP被封等。需要编写相应的异常处理程序来保证爬虫的稳定性和准确性。 2. 实现测试 下面是一个简单的基于Python的网络爬虫实现示例,该程序可以从百度新闻中获取指定关键词的新闻标题和链接,并将结果保存到本地txt文件中。 ```python import requests from bs4 import BeautifulSoup # 设置请求头 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 发起HTTP请求 url = 'https://www.baidu.com/s?ie=UTF-8&wd=Python' response = requests.get(url, headers=headers) # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') news_list = soup.find_all('h3', class_='news-title') # 输出结果 with open('news.txt', 'w', encoding='utf-8') as f: for news in news_list: title = news.a.text link = news.a['href'] f.write(title + '\n' + link + '\n') print(title) print(link) ``` 运行结果如下: ``` Python官方:Python 2.x is officially discontinued https://www.infoq.cn/article/7nKZiFJxXZPb3l1qeQsV Python for Finance: Analyze Big Financial Data https://www.datacamp.com/community/tutorials/finance-python-trading Python之父:我退休了,Python 3.9仍将如期发布 https://www.jiqizhixin.com/articles/2020-07-15-3 Python爬虫之BeautifulSoup详解 https://www.cnblogs.com/zhaof/p/6933133.html Python 3.9.0b4 发布 https://www.oschina.net/news/117273/python-3-9-0b4-released Python Web 服务器搭建指南 https://www.cnblogs.com/liubin2000/p/PythonWebServer.html ``` 同时会在本地生成一个news.txt文件,其中包含了所有新闻标题和链接。 总之,Python是一种非常适合编写网络爬虫的语言,具有简单易学、强大的库支持和丰富的第三方工具等优点。通过以上实现示例,可以看出Python的网络爬虫开发具有高效、灵活、易维护等特点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值