“”"
1.爬取链家地产二手房信息
要求:使用代理进行爬取:59.58.151.34:3879
步骤:
1.找URL
第一页:https://yichang.lianjia.com/ershoufang/pg1/
第二页:https://yichang.lianjia.com/ershoufang/pg2/
第三页:https://yichang.lianjia.com/ershoufang/pg3/
注意:
链家有两种地址:
第一种:城市名称是拼音缩写: 北京 ---- > bj
第二种: 城市名称是拼音: 宜昌 --- > yichang
2.提取需要的内容:
1.地址 2.总价格
正则表达式:
re.findall('<a href="javascript:;" class="no_resblock_a">(.*?) </a>.*<div class="totalPrice"><span>(.*?)</span>',html,re.S)
3.写入本地
注意:
需要什么内容,直接将前后完整的字符串复制进去,然后将需要的内容使用: (.*?)代替
“”"
import requests
import re
class LianjiaSpyder:
def __init__(self):
self.headers = {&#