爬取动漫

以前做的小demo

主要使用 selenium ,urllib , 爬取腾讯动漫的前10话

selenium 的使用火狐浏览器的配置请参考 这篇 博客

demo使用的是火狐浏览器

from  selenium import  webdriver
from selenium.webdriver.common.keys import  Keys
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.desired_capabilities import  DesiredCapabilities
from time import  sleep
import  re
import  os
import  urllib.request
#新建文件夹
def createfile(page):
   dirname ="Tencentcartoon"
   path = "E:\\Tencentcartoon" # 指定一个文件夹路径
   os.makedirs(path + "\\" + "第" + str(page) + "话")
# 设置无头模式
#options = webdriver.FirefoxOptions()
options = Options()
#options.add_argument('--headless')
#options.add_argument('--disable-gpu')
brower= webdriver.Firefox(options=options)
# 控制下一话url
page = 10  #前10话
for k in range(1,page):
 try:
    print(k)
    createfile(k)
    url = "https://ac.qq.com/ComicView/index/id/505430/cid/" + str(k)
    brower.get(url)
    for i in  range(31):
       js = 'var q=document.getElementById("mainView").scrollTop=' + str(i * 1920) # 拼接js 语句
       #浏览器执行js 滚动
       #js = "window.scrollTo(0,document.body.scrollHeight)"
       brower.execute_script(js)
       sleep(1)
    data=brower.page_source
        # 提取图片地址
    pat = '<img src="https://manhua.qpic.cn/manhua_detail/0/(.*?).jpg/0"'
    allid=re.compile(pat).findall(data)
    for i in range(0,len(allid)):
      thisid = allid[i]
      thisurl ="https://manhua.qpic.cn/manhua_detail/0/" +thisid+".jpg/0"# 拼接图片url
      path = "E:\\Tencentcartoon\\"+"第"+str(k)+"话\\"+str(i)+".jpg" #保存图片的地址
      urllib.request.urlretrieve(thisurl,filename=path)
 except Exception as  err:
    print(err)
brower.quit()

其他的爬虫练习demo 以后会持续上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值