requests 是库,主要是构造网络请求,获取网页内容,后续的解析、存储都要另行解决。
scrapy 是框架,可以说是爬虫的打包方案,除了上述构造请求、拿内容、解析、存储外,还可以做分布式爬虫,挂代理,等等一大堆功能。
BeautifulSoup是一个解析库,它也可以很好地从URL中获取内容,并且可以毫无麻烦地解析它们中的某些部分。它只会提取您给出的URL的内容,然后停止。它不会抓取,除非您手动将其放入具有特定条件的无限循环中。
爬虫几个常用的库
最新推荐文章于 2024-05-06 15:00:57 发布