商业智能学习过程中的问题(python方案)

  • 与数据库连接导入已有的数据时(从Excel中导入数据到数据仓库)时,由于Excel中有重复项,导致导入数据库时报错-主键重复。因此导入数据到数据库前,先检查数据是否重复,利用python中pndas库的Dateform类提供的方法删除重复项。

  • 与数据仓库进行连接时,一般不需要考虑因数据重复导致代码报错,因为数据仓库在大数据环境下,如此大的体量,添加主键索引会给数据库引擎带来巨大的压力。所以一般数据仓库不添加主键,这也是数据仓库和数据库的定义使然。数据仓库重存储、信息全面,而数据库更注重查询效率,需要进行增删查改、事务处理等。

  • 使用WebSpider获取页面内容时,效率较高的做法是直接进行request请求,截取服务器传回的报文,并进行数据清洗、数据分析供商业化使用。而面临的最大的问题就是各大网站的反扒措施,如IP限制——使用IP代理解决、报文头识别——采用添加User-Headers,模拟浏览器的报文头、Ajax动态渲染的页面——直接从浏览器的开发者工具——Network下手,刷新页面,寻找浏览器向服务器发送的请求接口地址进行请求,截取服务器返回的报文等。

  • 数据分析过程中,最重要的就是数据清洗,对脏数据进行处理。包括重复项取舍、缺失值的填补或删除行、异常值的处理等。针对缺失值,一般使用pandas库的fullna()函数填充该列值的均值(使用numpy库的mean()函数获取均值)。对于重复项,一般删除重复,只保留一行。而异常值,可以选择将异常值换位均值,也可以直接删除该行。

  • 数据可视化中,对某一数据集选取哪种图表进行表示,如何将图表展示的更易于理解,这是非常值得思考的。图表有柱状图、分组柱状图、堆积柱状图、横线柱状图、双向柱状图等等,要慎用动态图表。比如对与柱形图的横纵坐标如何进行定义,如何取区间范围,这都是值得思考的问题

  • ETL可分为E(Extract)即数据的抽取、T(Transform)数据的清洗转换、L(Load)数据的装载。其中耗时最大的是“T”,数据清洗的任务是过滤那些不符合要求的数据,包括不完整的数据需要补充完整缺失的内容分别写入不同Excel文件,补全后才写入数据仓库;错误的数据只能通过写SQL语句的方式找出来再修改等。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值