python抓取动态网页内容_如何用Python抓取动态网页

[我想做什么]

[问题]

把整页都刮掉。在上面的url中,只显示前30个条目。这些都可以通过我写的代码来实现。链接到其他网页显示像1 2 3。。。但是链接地址似乎是用Javascript编写的。我在谷歌上搜索有用的信息,但找不到。在from bs4 import BeautifulSoup

import urllib.request

html = urllib.request.urlopen("http://www.goo-net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1")

soup = BeautifulSoup(html, "lxml")

total_cars = soup.find(class_="change change_01").find('em').string

tmp = soup.find(class_="change change_01").find_all('span')

car_start, car_end = tmp[0].string, tmp[1].string

# get urls to car detail pages

car_urls = []

heading_inners = soup.find_all(class_="heading_inner")

for heading_inner in heading_inners:

href = heading_inner.find('h4').find('a').get('href')

car_urls.append('http://www.goo-net.com' + href)

for url in car_urls:

html = urllib.request.urlopen(url)

soup = BeautifulSoup(html, "lxml")

#title

print(soup.find(class_='hdBlockTop').find('p', class_='tit').string)

#price of car itself

print(soup.find(class_='price1').string)

#price of car including tax

print(soup.find(class_='price2').string)

tds = soup.find(class_='subData').find_all('td')

# year

print(tds[0].string)

# distance

print(tds[1].string)

# displacement

print(tds[2].string)

# inspection

print(tds[3].string)

[我想知道的]

如何刮整页。我更喜欢使用beauthoulsoup4(Python)。但如果这不是合适的工具,请给我看看其他的。在

[我的环境]Windows 8.1版

Python 3.5

PyDev(Eclipse)

美丽之旅4

如有任何指导,我们将不胜感激。谢谢您。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值