链家数据爬取

爬取杭州在售二手房的数据

https://hz.lianjia.com/ershoufang/这是首页地址,我们可以看见有翻页栏,总共100页,每一页30条数据,

第二页地址https://hz.lianjia.com/ershoufang/pg2/,对比可以发现多了一个参数pg2,这样就可以找到规律,1-100页请求地址都可以找到

使用正则表达式提取每一页的数据

'<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*?>(.*?)</a>.*?houseInfo.*?region.*?>(.*?)</a>(.*?)</div>.*?positionIcon.*?</span>(.*?)<a.*?>(.*?)</a>.*?starIcon.*?</span>(.*?)</div>.*?class="totalPrice"><span>(.*?)</span>(.*?)</div>.*?unitPrice.*?<span>(.*?)</span>'
import requests
import re
import json
import time
def get_one_page(url):
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'

    }
    response=requests.get(url,headers=headers)
    if response.status_code==200:
        return response.text
    return None
def parse_one_page(html):
    pattern=re.compile('<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*?>(.*?)</a>.*?houseInfo.*?region.*?>(.*?)</a>(.*?)</div>.*?positionIcon.*?</span>(.*?)<a.*?>(.*?)</a>.*?starIcon.*?</span>(.*?)</div>.*?class="totalPrice"><span>(.*?)</span>(.*?)</div>.*?unitPrice.*?<span>(.*?)</span>')
    items=re.findall(pattern,html)
    for item in items:
        yield{
        'title':item[0],
        'address':item[1],
        'houseIcon':item[2],
        'flood':item[3].strip()+item[4].strip(),
        'personStar':item[5],
        'price':item[6]+item[7]
        }
def write_file(content):
    with open('result12.json','a',encoding='utf8')as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
def main(offset):
    url='https://hz.lianjia.com/ershoufang/pg'+str(offset)
    html=get_one_page(url)
    for item in parse_one_page(html):
        write_file(item)
if __name__ == '__main__':
    for i in range(101):
        main(offset=i)
        time.sleep(1)

全部数据保存到json文件

 

转载于:https://www.cnblogs.com/jzxs/p/10291491.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python链家(Zillow)数据进行分析是一个常见的数据和处理任务,通常用于房地产市场的研究或个人项目。以下是使用Python进行链家数据分析的基本步骤: 1. **安装必要的库**: - `requests`:用于发送HTTP请求获网页内容。 - `BeautifulSoup` 或 `lxml`:解析HTML文档提所需数据。 - `pandas`:处理和分析数据,存储为数据框。 - `re`(正则表达式):用于处理和清洗URL、HTML标签等文本数据。 - `selenium`(可选):如果网站有反虫机制,可能需要模拟浏览器行为。 2. **获HTML源码**: - 使用`requests.get()`获链家网站特定页面的HTML源码。 - 处理可能出现的登录验证或动态加载数据的情况。 3. **解析HTML**: - 使用BeautifulSoup或lxml解析HTML,查找包含所需数据的元素(如房屋信息、价格等)。 4. **数据**: - 根据页面结构,定位并提出所需的数据,例如房屋地址、价格、面积等。 5. **数据清洗**: - 去除无关字符,处理缺失值或格式不一致的问题。 - 将数据转换为可分析的格式(如日期格式化)。 6. **数据分析**: - 利用pandas进行数据处理,计算统计指标(如平均房价、价格分布等)。 - 可视化数据:使用matplotlib、seaborn或Plotly等库绘制图表,展示分析结果。 7. **存储数据**: - 将清洗和分析后的数据保存到CSV、Excel、数据库或数据仓库中,以便后续进一步分析或分享。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值