二、使用BeatifulSoup爬取信息

            在上一篇中我们利用正则表达式和一些简单的操作爬取链家二手房的100个网页信息,这篇我们引入BeatifulSoup库来简化工作量,Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,我们可以通过 BeatifulSoup文档来学习相关操作。下面是利用BeatifulSoup库来实现上一篇功能的代码。

import urllib2
import time  
from bs4 import BeautifulSoup
time.clock()
for i in range(101):
    url = 'http://sz.lianjia.com/ershoufang/pg'+str(i)+'/'
    page = urllib2.urlopen(url)
    soup = BeautifulSoup(page)
    for link in soup.find_all('div','houseInfo'):
        context = link.get_text()
        print(context)
print(time.clock())
下一篇尝试学习scrapy库,利用scrapy框架来实现爬虫并爬取更多的信息落地到本地文件或数据库中。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值