目标:
爬出房源的名字、价格、地址和url
需要爬取的数据
import scrapy
class TutorialItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
FANGJIA_ADDRESS = scrapy.Field() # 住房地址
FANGJIA_NAME = scrapy.Field() # 名字
FANGJIA_PRICE = scrapy.Field() # 房价
FANGJIA_URL = scrapy.Field() # 房源url
目标城市
或者新楼盘:
http://hz.fang.lianjia.com/loupan/nht1/
分析网页源码
先抓取url,再进入具体网页抓取想要的数据。
href="http://hz.fang.lianjia.com/" ><span>新房</span>
XPATH抓取上面a 标签中的href
抓取一个页面的所有的url集合&#x