Python爬虫教程：包图网免费付费素材爬取【附源码】

最新推荐文章于 2024-05-03 14:25:28 发布

工程师大胖

最新推荐文章于 2024-05-03 14:25:28 发布

阅读量8.6k

点赞数 4

文章标签： python 爬虫

本文链接：https://blog.csdn.net/NNNJ9355/article/details/106181424

版权

包图网大家都知道吧集齐海量设计素材十分好用可惜太贵了,今天就带大家使用Python—爬虫爬取这些素材并且保存到本地!

抓取一个网站的内容，我们需要从以下几方面入手：

1-如何抓取网站的下一页链接？

2-目标资源是静态还是动态(视频、图片等)

3-该网站的数据结构格式

源代码如下


import requests
from lxml import etree
import threading
 
 
class Spider(object):
    def __init__(self):
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
        self.offset = 1
 
    def start_work(self, url):
        print("正在爬取第 %d 页......" % self.offset)
        self.offset += 1
        response = requests.get(url=url,headers=self.headers)
        html = response.content.decode()
        html = etree.HTML(html)
 
        video_src = html.xpath('//div[@class="vide

最低0.47元/天解锁文章

工程师大胖

关注

4
点赞
踩
33

收藏

觉得还不错? 一键收藏
4
评论
Python爬虫教程：包图网免费付费素材爬取【附源码】

包图网大家都知道吧集齐海量设计素材十分好用可惜太贵了,今天就带大家使用Python—爬虫爬取这些素材并且保存到本地!抓取一个网站的内容，我们需要从以下几方面入手：1-如何抓取网站的下一页链接？2-目标资源是静态还是动态(视频、图片等)3-该网站的数据结构格式源代码如下import requestsfrom lxml import etreeimport threading class Spider(object): def __init__(self):
复制链接

扫一扫