本帖最后由 mychi 于 2019-6-11 19:03 编辑
前言:
开始我用Requests写的有问题.
现在不能直接访问.我也不知道啥原因,但是百度快照的你可以连接进去
我就是这样搞的 好像是重定向可以 直接连接直接返回403
我之前搞过selenium,就整下试试.反正 你想要直接请求我看都GG
主页单页面数是27个 算上广告,选择css选择器能看到最后一个child
详情页面数,根据给的标题 正则能出来
用到的东西
工具:
Python3.7PyCharm
框架:
pyautogui seleniumpyautogui
集成的有:
rerandomtimeos
多写也就是5个方法!
search_context() 一层小的包装
each_page() 具体干活的方法
first_windows() 切换到第一个窗口(主页)
page_number() 获取详情页面具体的页数
switch_to_new_window()切换到最新的窗口(详情页面)
先上一个很丑的画面,直接访问403,开始以为是我IP的问题,换了代{过}{滤}理还是这样的
度娘一下.还有这个的快照.我这就是简单些一个思路.大佬见了别喷我! 我对这个也不是太专业!
中间遇到的问题:
1.不能直接访问他的图片地址.也不能直接获取他的单页面(相册的总数),用了一个取巧的方法,获取标题饭后正则匹配一下 将数字匹配出来.也算是一个动态吧,不过是需要从后面往前下载保存!
2.os创建文件夹的时候正常应该是一个图集名字一个文件夹的,但是用pyautogui