![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 83
辛勤小蜜蜂
这个作者很懒,什么都没留下…
展开
-
爬虫框架Scrapy
一、 爬虫框架Scrapy1、 使用python语言开发的爬虫组件,可以方便的从网站爬取需要的网页数据.2、 可以对网页元素进行解析并获取指定的数据,这些数据可以与实体中的属性进行对应。3、 Scrapy的构成(1) 爬虫引擎:用于控制整个爬取的流程(2) 调度器:将请求爬取的网址排列为一个队列。(3) 下载器:从请求的网址中下载网页内容(4) 管道:对爬取的数据进行处理(持久化—保存到文件或者数据库中)(5) 爬虫组件:爬取网页中需要的数据给item实体对象的属性赋值二、scrapy的原创 2021-07-10 09:17:53 · 1299 阅读 · 2 评论 -
使用BeautifuleSoup分页下载壁纸
一、使用BeautifuleSoup分页下载壁纸1、 创建加载页面的方法,用于抓取html网页信息2、 编写保存壁纸图片的方法3、 编写获取分页url地址的方法4、 编写运行的主方法二、实现的步骤1、 编写加载url页面地址的方法,返回html#加载要抓取的页面并获取html内容的方法def loadPage(surl):headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K原创 2021-07-10 09:17:16 · 1525 阅读 · 0 评论