二、使用BeatifulSoup爬取信息

最新推荐文章于 2024-03-19 20:34:59 发布

_DavidKing

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量2.4k

点赞数

分类专栏：菜鸟的python爬虫与数据分析之旅文章标签： python 爬虫

本文链接：https://blog.csdn.net/u013940664/article/details/52280046

版权

菜鸟的python爬虫与数据分析之旅专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在上一篇中我们利用正则表达式和一些简单的操作爬取链家二手房的100个网页信息，这篇我们引入BeatifulSoup库来简化工作量，Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，我们可以通过 BeatifulSoup文档来学习相关操作。下面是利用BeatifulSoup库来实现上一篇功能的代码。

import urllib2
import time  
from bs4 import BeautifulSoup
time.clock()
for i in range(101):
    url = 'http://sz.lianjia.com/ershoufang/pg'+str(i)+'/'
    page = urllib2.urlopen(url)
    soup = BeautifulSoup(page)
    for link in soup.find_all('div','houseInfo'):
        context = link.get_text()
        print(context)
print(time.clock())

下一篇尝试学习scrapy库，利用scrapy框架来实现爬虫并爬取更多的信息落地到本地文件或数据库中。