2020年12月_Python-Jack

12月 10月 06月 05月 04月 01月

转载从零开始学Python - 第030课：用Python获取网络数据

对于Python语言来说，一个较为擅长的领域就是网络数据采集，实现网络数据采集的程序通常称之为网络爬虫或蜘蛛程序。即便是在大数据时代，数据对于中小企业来说仍然是硬伤和短板，有些数据需要通过开放或付费的数据接口来获得，其他的行业数据则必须要通过网络数据采集的方式来获得。不管使用哪种方式获取网络数据资源，Python语言都是非常好的选择，因为Python的标准库和三方库都对获取网络数据提供了良好的支持。HTTP和requests库要使用Python获取网络数据，我们可以先安装一个名为requests的.

2020-12-11 15:45:18 280

转载从零开始学Python - 第029课：用Python操作PDF文件

PDF是Portable Document Format的缩写，这类文件通常使用.pdf作为其扩展名。在日常开发工作中，最容易遇到的就是从PDF中读取文本内容以及用已有的内容生成PDF文档这两个任务。从PDF中提取文本在Python中，可以使用名为PyPDF2的三方库来读取PDF文件，可以使用下面的命令来安装它。pip install PyPDF2 -i https://pypi.doubanio.com/simplePyPDF2没有办法从PDF文档中提取图像、图表或其他媒体，但它可以提取

2020-12-11 14:12:19 267

转载从零开始学Python - 第028课：用Python读写Excel文件

Excel简介Excel是Microsoft（微软）为使用Windows和macOS操作系统开发的一款电子表格软件。Excel凭借其直观的界面、出色的计算功能和图表工具，再加上成功的市场营销，一直以来都是最为流行的个人计算机数据处理软件。当然，Excel也有很多竞品，例如Google Sheets、LibreOffice Calc、Numbers等，这些竞品基本上也能够兼容Excel，至少能够读写较新版本的Excel文件，当然这些不是我们讨论的重点。掌握用Python程序操作Excel文件，可以让日常办

2020-12-11 14:11:29 230

转载从零开始学Python - 第031课：用Python解析HTML页面

在上一课中我们讲到了使用Python获取网络资源，如果我们获取到一个或多个页面，需要从页面中提取出指定的信息，首先得掌握解析HTML页面的技术。上一课中我们把整个HTML页面当成一个字符串，使用正则表达式的捕获组提取出了需要的内容。但是，写出一个正确的正则表达式经常也是一件让人头疼的事情。为此，我们可以先了解HTML页面的结构，在此基础上就可以掌握其他的解析HTML页面的方法。HTML页面的结构我们在浏览器中打开任意一个网站，然后通过鼠标右键菜单，选择“显示网页源代码”菜单项，就可以看到网页对应的H

2020-12-11 14:11:16 356

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 从零开始学Python - 第030课：用Python获取网络数据

转载 从零开始学Python - 第029课：用Python操作PDF文件

转载 从零开始学Python - 第028课：用Python读写Excel文件

转载 从零开始学Python - 第031课：用Python解析HTML页面

空空如也

空空如也

转载从零开始学Python - 第030课：用Python获取网络数据

转载从零开始学Python - 第029课：用Python操作PDF文件

转载从零开始学Python - 第028课：用Python读写Excel文件

转载从零开始学Python - 第031课：用Python解析HTML页面