以前做的小demo
主要使用 selenium ,urllib , 爬取腾讯动漫的前10话
selenium 的使用火狐浏览器的配置请参考 这篇 博客
demo使用的是火狐浏览器
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from time import sleep
import re
import os
import urllib.request
#新建文件夹
def createfile(page):
dirname ="Tencentcartoon"
path = "E:\\Tencentcartoon" # 指定一个文件夹路径
os.makedirs(path + "\\" + "第" + str(page) + "话")
# 设置无头模式
#options = webdriver.FirefoxOptions()
options = Options()
#options.add_argument('--headless')
#options.add_argument('--disable-gpu')
brower= webdriver.Firefox(options=options)
# 控制下一话url
page = 10 #前10话
for k in range(1,page):
try:
print(k)
createfile(k)
url = "https://ac.qq.com/ComicView/index/id/505430/cid/" + str(k)
brower.get(url)
for i in range(31):
js = 'var q=document.getElementById("mainView").scrollTop=' + str(i * 1920) # 拼接js 语句
#浏览器执行js 滚动
#js = "window.scrollTo(0,document.body.scrollHeight)"
brower.execute_script(js)
sleep(1)
data=brower.page_source
# 提取图片地址
pat = '<img src="https://manhua.qpic.cn/manhua_detail/0/(.*?).jpg/0"'
allid=re.compile(pat).findall(data)
for i in range(0,len(allid)):
thisid = allid[i]
thisurl ="https://manhua.qpic.cn/manhua_detail/0/" +thisid+".jpg/0"# 拼接图片url
path = "E:\\Tencentcartoon\\"+"第"+str(k)+"话\\"+str(i)+".jpg" #保存图片的地址
urllib.request.urlretrieve(thisurl,filename=path)
except Exception as err:
print(err)
brower.quit()
其他的爬虫练习demo 以后会持续上传