随着国家战略对“新基建”实施提上日程,大数据将会得到进一步推广和应用。
那么在作为大数据开发语言之一的Python语言,又有哪些用武之地呢,我们可以用一张图来简单阐述。
一、网络爬虫
网络爬虫是Python比较常用的一个场景,国际上,google在早期大量地使用Python语言作为网络爬虫的基础,带动了整个Python语言的应用发展。
requests模块在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests可以轻而易举完成浏览器可有的任何操作。
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以大大节省你的编程时间。
Selenium是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,支持chrome、firefox等主流浏览器。可以通过代码控制与页面上元素进行交互,也可以获取指定元素的内容。
Scrapy是用python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。
二、数据处理
Python有很完备的生态环境。"大数据"分析中涉及到的分布式计算、数据可视化、数据库操作等,Python中都有成熟的模块可以选择完成其功能。
对于Hadoop-MapReduce和Sp