爬取JS动态生成的URL

爱卡汽车论坛搜索结果页面:

想要python爬取搜索结果链接:a标签中的href,但是这个url是动态生成的。
网页源代码:

用普通方式解析:
import urllib.request

url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔腾x40"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)
解析结果:

selenium:这是一个用于web应用程测试的工具
下载方式:pip install selenium

phantomjs
是一种无界面的浏览器,用于完成网页的渲染
下载地址
http://phantomjs.org/download.html

解压就可以用
打开解压后的文件,找到bin下的phantomjs.exe将这个路径放到PATH路径下

动态解析:
from selenium import webdriver
url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔腾x40"
driver = webdriver.PhantomJS(executable_path='E:/phantomjs/bin/phantomjs.exe')
#这个路径就是你添加到PATH的路径
driver.get(url)
print (driver.page_source)
解析结果:


下一步如何取出:






参考文章:http://www.freebuf.com/column/142404.html

继续:
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值