使用python自动化处理三方数据入库工作

这篇博客讲述了如何使用Python编写自动化脚本来爬取特定客户在特定城市的广告投放数据,并依据客户需求将其处理后存入MySQL数据库。脚本涉及设置爬虫参数、数据处理、文件操作以及定时任务的配置。在实施过程中,作者遇到了os进程关闭、列表操作及文件管理等问题,并分享了部分解决方案。
摘要由CSDN通过智能技术生成

工作流程描述:通过python爬虫包定向爬取某个监测工具上公司的某个客户的某个指标的广告投放监控数据,放到运营界面上用于指导运营投放策略及技术部的竞价模型的调优。日常的流程是:客户确定需要观察的指标,例如客户A需要北上广这三个城市的广告投放占比为40%,40%,20%,通过在服务器后端的爬虫中设置相应的参数得到数据,将得到的数据进行进一步处理,录入到mysql的数据库中。

 

Python自动化脚本处理的目标描述:

1.    通过输入参数,判断客户需要什么样的监测指标,判断需要将数据输入到mysql哪个库里面(客户有时候关心target  audience,有时候关心audiencereach的比例,这两个需求在mysql中有不同的库表存储)

2.    对爬虫运行之后生成的数据定向输出到文件中,对文件的内容进行文本处理,判断生成的数据字段是否存在,存储到mysql的那一栏数据项中。

3.    将python自动化处理的过程在服务器端设置根据不同的客户设置不同的定时任务

 

用到的知识点:

1.python中运行shell命令

2.python读取文本文档

3.python 逐行处理文本文档数据

4.python 将文本文档处理后数据拼接成sql,插入到对应的数据库表中

 

在处理问题的过程中遇到的问题:

1.    python  os.popen(shell)后未能及时将os过程关闭,导致随后的read文档失效

2.    list对象直接.append(object)是不会返回原列表的,所以不能a=list.append(str)

3.    保持好习惯注意每次生成的文件的及时删除


选取部分代码,以便日后更加清晰的记忆









 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值