使用python爬取链家上海二手房信息的案例
1、需求分析
爬取链家网上海的二手房信息,包括名称、户型、面积、价格信息,并将爬取到的信息写入到数据库中。
2、步骤分析
2.1 确定待爬取的url
https://sh.lianjia.com/ershoufang/pg
在谷歌浏览器中查看网页源代码:ctrl+shif+i,先点击图中左上角框中的按钮,再在网页中点击需要查看的内容就会定位到对应的代码。
2.2确定爬取的数据
确定爬取的名称和户型的标签为 data-el=”region”
确定爬取的二手房的价格的标签class类名:class=”totalPrice”
3、代码实现
#从urllib中导入request,接受一个Request类的实例来设置URL请求的headers
from urllib import request
#导入正则表达式模块
import re