商业智能学习过程中的问题（python方案）

lhx479823365

已于 2023-03-12 22:53:53 修改

阅读量123

点赞数 1

文章标签：学习 Powered by 金山文档

于 2023-03-11 21:42:45 首次发布

本文链接：https://blog.csdn.net/lhx479823365/article/details/129468229

版权

与数据库连接导入已有的数据时（从Excel中导入数据到数据仓库）时，由于Excel中有重复项，导致导入数据库时报错-主键重复。因此导入数据到数据库前，先检查数据是否重复，利用python中pndas库的Dateform类提供的方法删除重复项。

与数据仓库进行连接时，一般不需要考虑因数据重复导致代码报错，因为数据仓库在大数据环境下，如此大的体量，添加主键索引会给数据库引擎带来巨大的压力。所以一般数据仓库不添加主键，这也是数据仓库和数据库的定义使然。数据仓库重存储、信息全面，而数据库更注重查询效率，需要进行增删查改、事务处理等。

使用WebSpider获取页面内容时，效率较高的做法是直接进行request请求，截取服务器传回的报文，并进行数据清洗、数据分析供商业化使用。而面临的最大的问题就是各大网站的反扒措施，如IP限制——使用IP代理解决、报文头识别——采用添加User-Headers,模拟浏览器的报文头、Ajax动态渲染的页面——直接从浏览器的开发者工具——Network下手，刷新页面，寻找浏览器向服务器发送的请求接口地址进行请求，截取服务器返回的报文等。

数据分析过程中，最重要的就是数据清洗，对脏数据进行处理。包括重复项取舍、缺失值的填补或删除行、异常值的处理等。针对缺失值，一般使用pandas库的fullna（）函数填充该列值的均值（使用numpy库的mean（）函数获取均值）。对于重复项，一般删除重复，只保留一行。而异常值，可以选择将异常值换位均值，也可以直接删除该行。

数据可视化中，对某一数据集选取哪种图表进行表示，如何将图表展示的更易于理解，这是非常值得思考的。图表有柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等等，要慎用动态图表。比如对与柱形图的横纵坐标如何进行定义，如何取区间范围，这都是值得思考的问题

ETL可分为E(Extract)即数据的抽取、T(Transform)数据的清洗转换、L(Load)数据的装载。其中耗时最大的是“T”,数据清洗的任务是过滤那些不符合要求的数据，包括不完整的数据需要补充完整缺失的内容分别写入不同Excel文件，补全后才写入数据仓库；错误的数据只能通过写SQL语句的方式找出来再修改等。

关注