requests_爬取链家面积和价格

#导入模块
import os
import re
import pandas as pd
import random
import time
import requests
爬取数据
# 存储
datalist = []

for i in range(1,11): # 爬取10页
    print('正在爬取第%s页'%i)
    url = 'https://gz.lianjia.com/zufang/pg'+str(i)+'/#contentList'
    proxies = [{'http': 'http://58.212.42.116:36708'}, {'http':'http://117.57.91.53:9999'}, {'http':'123.169.35.184:9999'}]
    header ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.42 Safari/537.36'}
    response = requests.get(url,headers=header, proxies = random.choice(proxies))

    if response.status_code == 200:
        html = response.text
        
        # 正则表达式
        nameregex = re.compile('<a target="_blank" href=".*?">\n\s+(.*?)\s+</a>')  # \s表示空白字符即不能打印的字符
        name = re.findall(nameregex,html)  # 找出所有小区的名字
        arearegex = re.compile('([0-9.]+)㎡')
        area = re.findall(arearegex,html) # 找出所有租房的面积
        priceregex = re.compile('<em>([0-9.]+)</em> 元/月')
        price = re.findall(priceregex,html)

        # 存储
        for i in range(len(name)):
            datalist.append([name[i], float(area[i]), float(price[i])])
            
    # 设置一下间隔时间,防止被封禁        
    time.sleep(random.randint(6,8))
df = pd.DataFrame(datalist,columns=['name','area','price']).sort_values('area',ascending = False)
df.to_csv('D:\\Desktop\\爬虫_anaconda\\链家面积和价格.csv',index=False)
print('保存完成')

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
使用requests库和xpath来爬取链家租房的房源信息的步骤如下: 1. 首先,你需要使用requests库发送一个HTTP请求到链家网站,获取到网页的内容。你可以使用requests库的get方法,并传入链家网站的URL作为参数。 2. 接下来,你需要使用xpath来解析网页的内容。你可以使用lxml库中的etree模块来创建一个Element对象,然后使用该对象的xpath方法来提取你需要的信息。你可以使用xpath表达式来定位到房源信息所在的HTML元素。 3. 在xpath表达式中,你可以使用标签名、属性、class等来定位到具体的房源信息。你可以使用element对象的xpath方法来获取到一个包含所有房源信息的列表。 4. 遍历房源信息列表,将每个房源的所在地区、小区名、户型、面积、朝向、价格等信息保存到一个字典中。 5. 创建一个空的DataFrame对象,并指定列名为\['地区', '小区名', '户型', '面积', '朝向', '价格(元/月)'\]。 6. 遍历字典列表,将每个字典作为一行数据添加到DataFrame对象中,可以使用DataFrame的append方法。 7. 最后,将DataFrame对象保存到Excel文件中,可以使用pandas库的to_excel方法。 综上所述,你可以使用requests库和xpath来爬取链家租房的房源信息,并将数据保存到Excel文件中。 #### 引用[.reference_title] - *1* *3* [利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中](https://blog.csdn.net/renhongbin614/article/details/104540204)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [爬虫三:用xpath爬取链家网二手房信息](https://blog.csdn.net/qq_23860475/article/details/103505587)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

半两风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值