python抓取动态网页内容_如何用Python抓取动态网页

最新推荐文章于 2024-08-23 12:39:49 发布

weixin_39793638

最新推荐文章于 2024-08-23 12:39:49 发布

阅读量173

点赞数

文章标签： python抓取动态网页内容

[我想做什么]

[问题]

把整页都刮掉。在上面的url中，只显示前30个条目。这些都可以通过我写的代码来实现。链接到其他网页显示像1 2 3。。。但是链接地址似乎是用Javascript编写的。我在谷歌上搜索有用的信息，但找不到。在from bs4 import BeautifulSoup

import urllib.request

html = urllib.request.urlopen("http://www.goo-net.com/php/search/summary.php?price_range=&pref_c=08,09,10,11,12,13,14&easysearch_flg=1")

soup = BeautifulSoup(html, "lxml")

total_cars = soup.find(class_="change change_01").find('em').string

tmp = soup.find(class_="change change_01").find_all('span')

car_start, car_end = tmp[0].string, tmp[1].string

# get urls to car detail pages

car_urls = []

heading_inners = soup.find_all(class_="heading_inner")

for heading_inner in heading_inners:

href = heading_inner.find('h4').find('a').get('href')

car_urls.append('http://www.goo-net.com' + href)

for url in car_urls:

html = urllib.request.urlopen(url)

soup = BeautifulSoup(html, "lxml")

#title

print(soup.find(class_='hdBlockTop').find('p', class_='tit').string)

#price of car itself

print(soup.find(class_='price1').string)

#price of car including tax

print(soup.find(class_='price2').string)

tds = soup.find(class_='subData').find_all('td')

# year

print(tds[0].string)

# distance

print(tds[1].string)

# displacement

print(tds[2].string)

# inspection

print(tds[3].string)

[我想知道的]

如何刮整页。我更喜欢使用beauthoulsoup4(Python)。但如果这不是合适的工具，请给我看看其他的。在

[我的环境]Windows 8.1版

Python 3.5

PyDev(Eclipse)

美丽之旅4

如有任何指导，我们将不胜感激。谢谢您。在

weixin_39793638

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。