在上一篇中我们利用正则表达式和一些简单的操作爬取链家二手房的100个网页信息,这篇我们引入BeatifulSoup库来简化工作量,Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,我们可以通过
BeatifulSoup文档来学习相关操作。下面是利用BeatifulSoup库来实现上一篇功能的代码。
import urllib2
import time
from bs4 import BeautifulSoup
time.clock()
for i in range(101):
url = 'http://sz.lianjia.com/ershoufang/pg'+str(i)+'/'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
for link in soup.find_all('div','houseInfo'):
context = link.get_text()
print(context)
print(time.clock())
下一篇尝试学习scrapy库,利用scrapy框架来实现爬虫并爬取更多的信息落地到本地文件或数据库中。