一、第三方库内容介绍
3.1.网络爬虫
网络爬虫是自动进行HTTP访问并捕获HTML页面的程序
-
requests库
是一个简洁且简单的处理HTTP请求的第三方库。优点:程序编写过程更接近正常URL访问过程。该库建立在urllib3基础上。 -
scrapy库
是Python开发的一个快速的、高层次的web获取框架。不同于简单的网络爬虫功能,scrapy框架本身包含了成熟网络爬虫系统所应该具有的部分共用功能。它是一个半成品,任何人都可以根据需求方便地利用框架已有功能经过简单扩展实现专业的网络爬虫系统。
3.2 数据分析
-
numpy
是一种开源数值计算扩展第三方库用于处理数据类型相同的多维数组,可以用来存储和处理大型矩阵,比Python语言提供的列表结果要高效得多。 -
scipy
是一款方便、易用、专为科学和工程设计的Python工具包,他是在numpy库的基础上增加来了众多的数学、科学以及工程计算中常用的库函数。 -
pandas
pandas是基于numpy扩展的一个重要第三方库,pandas最初被作为金融数据分析工具而开发。
3.3 文本处理
- pdfminer
是一个可以从PDF文档中提取各类信息的第三方库,能够完全获取并分析PDF的文本数据,并且获取PDF中文本的准确位置、字体、行数等信息。