selenium+ Phantomjs爬取动态网页

对于动态加载,Selenium+Phantomjs的强大打开网页查看网页源码(注意不是检查元素)会发现要爬取的信息并不在源码里面。Selenium+Phantomjs的强大一方面就在于能将完整的源码抓取到,也就是说,从网页源码无法通过解析得到数据。


# -*- coding: utf-8 -*-
import xlsxwriter

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

from selenium import webdriver
from bs4 import BeautifulSoup
 
def get_grade(url):
    print(url)
    #匿名爬虫
    #假定9999端口开启tor服务
    service_args = ['--proxy=localhost:9999', '--proxy-type=socks5', ]
    driver = webdriver.PhantomJS(executable_path=r"C:\Users\Administrator\Desktop\phantomjs-1.9.7-windows\phantomjs.exe")
    driver.get(url)
    data = driver.page_source
    # print(data)
 
    soup = BeautifulSoup(data, 'lxml')
    grades = soup.find_all('tr')
    for grade in grades:
        global i
        if '<td>' in str(grade):
            i += 1
            print(i)
            grade_text =grade.get_text()
            print(grade_text)
            grade_text = str(grade_text)
            city = grade_text[:-13]
            worksheet.write(i,0,city)
            time = grade_text[-13:-9]
            worksheet.write(i,1,time)
            subs = grade_text[-9:-7]
            worksheet.write(i,2,subs)
            s = grade_text[-7:-3]
            worksheet.write(i,3,s)
            grade = grade_text[-3:]
            worksheet.write(i,4,grade)
 
i = -1
workbook 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值