第一次写博客,写的不好的或讲不清楚的地方还请多多包涵,那么开始吧。
这次的爬虫小项目,爬取的是猫眼电影排行榜top100的电影相关信息,算是比较简单的项目,接下来是具体的说明:
【运行环境:PyCharm】
-
首先是需要导入的模块
1.requests:用于获取目标网页
2.lxml:解析获取的网页
3.json:用于生成一个json文件,JSON对我们而言就是通用的数据格式,任何语言都能够解析
4.time:时间控制模块,这里是使爬取信息的时候有停顿 -
接着是目标网站:猫眼电影
榜单第一页的网址:https://maoyan.com/board/4?offset=0
榜单第二页的网址:https://maoyan.com/board/4?offset=10
以此类推,有变化的是**offset=**后面的值,可以利用这个,用for循环来获取榜单总共10页的信息。 -
获取网页源码
用requests的get方法来获取,并用for循环来获取全部1