【整理】爬取网页数据的方法汇总

渫渫不在乎

已于 2022-07-01 11:20:01 修改

阅读量1.8w

点赞数 9

分类专栏： Python 文章标签： python javascript

于 2022-07-01 11:14:37 首次发布

本文链接：https://blog.csdn.net/qq_37785938/article/details/125534124

版权

网页爬取方法汇总：

浏览器console
浏览器插件
- · Web Scraper
在线网页爬取工具
八爪鱼软件
Python

案例：爬取豆瓣电影Top 250的列表（电影名称、导演、主演、星级等信息）

浏览器console

操作：浏览器内鼠标右键 —> “检查”（不同的浏览器名称可能不一样，此处使用了Google）—> Elements ：查看网页结构 —> Console ：输入指令

在这里插入图片描述

var i = 0;
var hd = document.querySelectorAll("div.hd > a");
var bd = document.querySelectorAll("div.bd > p");
var star = document.querySelectorAll("div.bd > div.star > span.rating_num");
var quote = document.querySelectorAll("div.bd > p.quote > span.inq");
for(var t of document.querySelectorAll("ol.grid_view > li > div.item > div.info"))
    {
          
        console.log(hd[i].href);
        console.log(hd[i].text);
        console.log(bd[i]