前言
本文是该专栏的第17篇,后面会持续分享python爬虫干货知识,记得关注。
笔者在本文以imdb平台为例,采集该平台的最新的电影以及电影预告片数据。除此之外,考虑到目标数据非中文数据,所以会在项目实战代码中增加一个翻译功能。换言之,爬虫采集到的非中文电影数据,通过该翻译功能将直接把非中文数据翻译成中文数据。
具体的详细思路以及代码实现逻辑,跟着笔者直接往下看正文详细内容。(附带完整代码)
正文
地址:aHR0cHM6Ly93d3cuaW1kYi5jb20vdHJhaWxlcnMv
目标:采集最新的电影及电影预告片数据
1. 第三方安装
在准备工作开始之前,首先来提前安装好所需的库,那就是——pyhttpx。
pyhttpx的网上介绍资料并不多,想要了解并感兴趣的同学可以仔细查阅官方文档,笔者在这里简单的概述下pyhttpx的参数用法&