本文使用selenium + Chrome + + requests + 多进程的方式进行爬取
本文只能爬取免费的漫画,对于付费的漫画没有做相关的处理
本文仅供学习交流使用,严禁用于商业用途
开门见山。直接上代码
先进行导入模块,项目初始化
from selenium import webdriver
import requests
import os,sys
import time
class Tencent(object):
def __init__(self,url='https://ac.qq.com/ComicView/index/id/505430/cid/1'):
#当前文件路径
self.path = os.path.dirname(os.path.realpath(sys.argv[0]))
#设置消息头
self.headers = {
"User-Agent":"Mozilla/5.0"}
#传入要爬取的url
#测试页面,腾讯动漫海贼王第一话
self.url = url
打开网页,从顺序模式切换到对页模式,网站默认是顺序阅读模式
def open_url(self):
self.driver.get(self.url)
#先切换至对页模式,因为腾讯动漫采用异步加载模式且使用driver.execute_script()方法无法操作界面,
#但是点击事件可以正常触发,所以为了方便,可切换到对页模式
self.driver.find_element_by_id('crossPage').click()
self.