使用python自动化处理三方数据入库工作

最新推荐文章于 2024-08-21 17:14:07 发布

夜雨滴空阶

最新推荐文章于 2024-08-21 17:14:07 发布

阅读量2.1k

点赞数

分类专栏：工欲善其事，必先利其器读万卷书，行万里路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdscsjmd/article/details/73332080

版权

这篇博客讲述了如何使用Python编写自动化脚本来爬取特定客户在特定城市的广告投放数据，并依据客户需求将其处理后存入MySQL数据库。脚本涉及设置爬虫参数、数据处理、文件操作以及定时任务的配置。在实施过程中，作者遇到了os进程关闭、列表操作及文件管理等问题，并分享了部分解决方案。

摘要由CSDN通过智能技术生成

工作流程描述：通过python爬虫包定向爬取某个监测工具上公司的某个客户的某个指标的广告投放监控数据，放到运营界面上用于指导运营投放策略及技术部的竞价模型的调优。日常的流程是：客户确定需要观察的指标，例如客户A需要北上广这三个城市的广告投放占比为40%，40%，20%，通过在服务器后端的爬虫中设置相应的参数得到数据，将得到的数据进行进一步处理，录入到mysql的数据库中。

Python自动化脚本处理的目标描述：

1. 通过输入参数，判断客户需要什么样的监测指标，判断需要将数据输入到mysql哪个库里面（客户有时候关心target audience，有时候关心audiencereach的比例，这两个需求在mysql中有不同的库表存储）

2. 对爬虫运行之后生成的数据定向输出到文件中，对文件的内容进行文本处理，判断生成的数据字段是否存在，存储到mysql的那一栏数据项中。

3. 将python自动化处理的过程在服务器端设置根据不同的客户设置不同的定时任务

用到的知识点：

1.python中运行shell命令

2.python读取文本文档

3.python 逐行处理文本文档数据

4.python 将文本文档处理后数据拼接成sql，插入到对应的数据库表中

在处理问题的过程中遇到的问题：

1. python os.popen(shell)后未能及时将os过程关闭，导致随后的read文档失效

2. list对象直接.append(object)是不会返回原列表的，所以不能a=list.append(str)

3. 保持好习惯注意每次生成的文件的及时删除

选取部分代码，以便日后更加清晰的记忆

夜雨滴空阶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。