python面向对象多线程爬虫爬取搜狐页面的实例代码

最新推荐文章于 2024-05-23 17:47:04 发布

python 一语呢喃

最新推荐文章于 2024-05-23 17:47:04 发布

阅读量1.8k

点赞数 1

分类专栏： python基础教程文章标签： python 多线程

本文链接：https://blog.csdn.net/haoxun02/article/details/104418994

版权

本文介绍了使用Python进行面向对象和多线程爬虫的实践，详细讲述了如何创建爬虫对象，包括抓取、解析、抽取和储存页面，并通过实例展示了重写多线程类的过程。通过requests、lxml、bs4等库，实现了对搜狐网站的页面抓取。同时，文章提供了一个解码和重试功能的装饰器，以及解析页面的方法。最后，给出了一个完整的爬虫结构，并推荐了Python学习资源。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python面向对象多线程爬虫爬取搜狐页面的实例代码,需要的朋友可以参考下
首先我们需要几个包：requests, lxml, bs4, pymongo, redis

创建爬虫对象，具有的几个行为：抓取页面，解析页面，抽取页面，储存页面

class Spider(object):
 def __init__(self):
  # 状态(是否工作)
  self.status = SpiderStatus.IDLE
 # 抓取页面
 def fetch(self, current_url):
  pass
 # 解析页面
 def parse(self, html_page):
  pass
 # 抽取页面
 def extract(self, html_page):
  pass
 # 储存页面
 def store(self, data_dict):
  pass

设置爬虫属性，没有在爬取和在爬取中，我们用一个类封装， @unique使里面元素独一无二，Enum和unique需要从 enum里面导入：

@unique
class SpiderStatus(Enum):
 IDLE = 0
 WORKING = 1

重写多线程的类：

class SpiderThread(Thread):
 def __init__(self, spider, tasks):
  super().__init__(daemon=True)
  self.spider = spider
  self.tasks = tasks
 def run(self):
  while True:
   pass

最低0.47元/天解锁文章

python 一语呢喃

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python面向对象多线程爬虫爬取搜狐页面的实例代码

这篇文章主要介绍了python面向对象多线程爬虫爬取搜狐页面的实例代码,需要的朋友可以参考下首先我们需要几个包：requests, lxml, bs4, pymongo, redis创建爬虫对象，具有的几个行为：抓取页面，解析页面，抽取页面，储存页面class Spider(object): def __init__(self): # 状态(是否工作) self.status ...
复制链接

扫一扫