python+selenium分析javascript生成的网页

这两天时间都花在了爬取一个视频站点上。那个视频站点是后台生成的object对象,发送给前端,让前端用flash播放器播放。我要把他的内容偷到我的网页上来。开始想分析视频地址,可是它的地址是转码过的,而且还是javascript生成的,太费劲。后来一想,直接把他的<object>对象的代码贴过来不就可以了。接下来就要解析那些网页。我的服务器上装的还是win server 2003.昨天找了一天,实在没有网页测试的工具可以在上边运行,折腾到晚上,装了个虚拟机,再装个win7.然后在上边装python 3.6。selenium支持3.5以上的。我的chrome version 66.selenium的driver下最新的就行了。driver与浏览器版本要对应起来才可以运行。我在搜索的过程中感觉没人分享可以运行的整段代码,我来贴出我的:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
import time,socket,re

socket.setdefaulttimeout(150)
opts=webdriver.ChromeOptions()
opts.binary_location="C:\Program Files\Google\Chrome\Application\chrome.exe"
browser=webdriver.Chrome(chrome_options=opts)
print("!!!   change the flash settings")
time.sleep(90)
# http://movie.zzb.nj

try:
    browser.get("http://movie.zzb.nj/?s=vod-play-id-3534-sid-0-pid-1.html")
except:
    print("e   getpage timeout.")
try:
    flashObjectWrap=browser.find_elements_by_class_name("player")
    print(flashObjectWrap)

    tempString=flashObjectWrap[0].get_attribute('innerHTML')
    print(tempString)
    try:
        p_start=re.compile("<object")
        p_end=re.compile("<\/object>")
        m_start=p_start.search(tempString)
        m_end=p_end.search(tempString)
        objectString=tempString[m_start.start():m_end.end()]
    except:
        print("e   find html error.")
except:
    print("e   can\'t find.")
browser.close()

上边的网址是我瞎编的,不要当真。我要爬的那个网页还有一个问题就是,即使用浏览器打开,他也是一直在那转圈,始终加载不完,只能设个超时。chrome默认是不支持播放flash的,想播放,要去settings中搜flash,你会看到相关的设置。对version 66来说就只有那一项需要设置,把想看的网站添加到“允许”列表即可。但是,程序通过selenium打开的chrome选项卡是不带这些配置的,也就是禁止一切flash。我又陷入了迷茫。搜了一圈chrome 带参数运行而无果之后,我突然想到,selenium在启动chrome以后已经有图形界面了,那个时候在他加载网页之前自己手动把flash相关的设置设好不就可以了?想到这我真实无语啊,程序都编成这样,还自动加手动去搞。我是应该表扬自己“灵活”,还是感叹自己学艺不精。

print("!!!   change the flash settings")
time.sleep(90)

这两行就是干那事的。

browser.find_elements_by_class_name("player")

的过程中,程序会运行很慢,不知道是不是因为那个网站始终无法加载完成的原因。总之这里也得等,60s是不够的,我通过几次运行估计需要2分钟左右。而且这一步的运行时间受第5行timeout的时间限制,所以timeout设的不能小于120.这也是奇怪啊,搞来搞去,这个程序转一圈都需要4分钟。反正又到晚上了,让他慢慢转去吧,我已经没心情折腾了。

==========================================

以上是昨天写的.今天一大早起床又有新想法:我把html页面携带的变量值和我已经定位到生成object的javascript文件一起放到新页面不是也可以运行吗?试了一下,可以.这么说前两天还是走了弯路.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值