1、数据获取:Python通过requestsbs4库实现网页内容爬取和网页解析,scrapy库可以自动批量爬取数据,是一个轻量级爬虫框架。
2、数据处理:Python常规语法可以过滤过噪 numpy、pandas通过矩阵式的数据结构高效清洗数据,进行各种科学计算,包括与Excel的结构互通。
3、数据分析:sklearn是常规机器学习库,包含常用的聚类、分类、回归、序列分析算法调用, nltk、gensim等库负责处理文本类数据分析
networkx负责处理图论计算和网络拓扑结构,深度学习会用到tensorflow、pytorch等,一般用作实验模型训练,生产环境部署往往需要更底层的 C语言进行重构和封装。
4、数据可视化:matplotlib是常用的图表库,将处理好的数据放入不同功能图进行绘制,我们可以轻松看到到一些洞察规律和统计值展示。
5、数据维护:通过各种数据库API接口可以轻松访问、保存、更改数据,方便增删查改操作。