爬取动漫

最新推荐文章于 2024-03-18 15:55:06 发布

Nicht_

最新推荐文章于 2024-03-18 15:55:06 发布

阅读量217

点赞数

本文链接：https://blog.csdn.net/qq_40344722/article/details/103216733

版权

Python 爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

以前做的小demo

主要使用 selenium ，urllib , 爬取腾讯动漫的前10话

selenium 的使用火狐浏览器的配置请参考这篇博客

demo使用的是火狐浏览器

from  selenium import  webdriver
from selenium.webdriver.common.keys import  Keys
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.desired_capabilities import  DesiredCapabilities
from time import  sleep
import  re
import  os
import  urllib.request
#新建文件夹
def createfile(page):
   dirname ="Tencentcartoon"
   path = "E:\\Tencentcartoon" # 指定一个文件夹路径
   os.makedirs(path + "\\" + "第" + str(page) + "话")
# 设置无头模式
#options = webdriver.FirefoxOptions()
options = Options()
#options.add_argument('--headless')
#options.add_argument('--disable-gpu')
brower= webdriver.Firefox(options=options)
# 控制下一话url
page = 10  #前10话
for k in range(1,page):
 try:
    print(k)
    createfile(k)
    url = "https://ac.qq.com/ComicView/index/id/505430/cid/" + str(k)
    brower.get(url)
    for i in  range(31):
       js = 'var q=document.getElementById("mainView").scrollTop=' + str(i * 1920) # 拼接js 语句
       #浏览器执行js 滚动
       #js = "window.scrollTo(0,document.body.scrollHeight)"
       brower.execute_script(js)
       sleep(1)
    data=brower.page_source
        # 提取图片地址
    pat = '<img src="https://manhua.qpic.cn/manhua_detail/0/(.*?).jpg/0"'
    allid=re.compile(pat).findall(data)
    for i in range(0,len(allid)):
      thisid = allid[i]
      thisurl ="https://manhua.qpic.cn/manhua_detail/0/" +thisid+".jpg/0"# 拼接图片url
      path = "E:\\Tencentcartoon\\"+"第"+str(k)+"话\\"+str(i)+".jpg" #保存图片的地址
      urllib.request.urlretrieve(thisurl,filename=path)
 except Exception as  err:
    print(err)
brower.quit()