爬虫
文章平均质量分 83
辛勤小蜜蜂
这个作者很懒,什么都没留下…
展开
-
爬虫框架Scrapy
一、 爬虫框架Scrapy 1、 使用python语言开发的爬虫组件,可以方便的从网站爬取需要的网页数据. 2、 可以对网页元素进行解析并获取指定的数据,这些数据可以与实体中的属性进行对应。 3、 Scrapy的构成 (1) 爬虫引擎:用于控制整个爬取的流程 (2) 调度器:将请求爬取的网址排列为一个队列。 (3) 下载器:从请求的网址中下载网页内容 (4) 管道:对爬取的数据进行处理(持久化—保存到文件或者数据库中) (5) 爬虫组件:爬取网页中需要的数据给item实体对象的属性赋值 二、scrapy的原创 2021-07-10 09:17:53 · 1317 阅读 · 2 评论 -
使用BeautifuleSoup分页下载壁纸
一、使用BeautifuleSoup分页下载壁纸 1、 创建加载页面的方法,用于抓取html网页信息 2、 编写保存壁纸图片的方法 3、 编写获取分页url地址的方法 4、 编写运行的主方法 二、实现的步骤 1、 编写加载url页面地址的方法,返回html #加载要抓取的页面并获取html内容的方法 def loadPage(surl): headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (K原创 2021-07-10 09:17:16 · 1555 阅读 · 0 评论