大数据-一站式内容画像数据处理(pyodps+odps)
背景公司的pro环境并没有搭建自己存储环境,而是直接使用阿里云的rds,那么数仓的建设也就直接使用了阿里云的dataworks(也就是原odps,也有maxcompute)。数据存储的限制,需要使用pyodps的sdk才能进行更好的管理、分析、处理(机器学习、深度学习模型训练等)。本wiki将阐述使用pyodps的优势。数据流概念解析:内容源爬虫系统,scrapy实现,爬取文章...
原创
2020-03-18 16:54:28 ·
1840 阅读 ·
2 评论