爬虫小白第一篇:利用requests和lxml提取楼盘信息

#在CSDN上写的第一篇文章
##写的代码有很多不合规范
就是一个很简单的静态网页爬虫
比如requests 应使用 try/catch 结构
##有一个问题不知道怎么解决:
当爬取的数据较多时,是否应该逐行写入文件,像下面写的方法会不会占用太多内存?
##还望大家多多指教
因为初版写完之后不小心 ctrl z 没了,ctrl y 也没找回来,再写的时候就懒得写注释了哈哈。
##连接:合肥新开楼盘链家网

import requests
from lxml import etree
import pandas as pd

start_url = 'https://hf.fang.lianjia.com/loupan/nhs1pg{}/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

def is0(x): 
    if len(x) == 0:
        return '暂缺'
    else:
        return x[0]
    
houses = []
for i in range(1,36):
    url = start_url.format(i)
    headers['referer'] = url
    r = requests.get(url, headers = headers)
    tree = etree.HTML(r.text)
    house = tree.xpath('/html/body/div[4]/ul[2]/li')
    for e in house:
        name = is0(e.xpath('div/div[1]/a/text()'))
        type_ = is0(e.xpath('div/div[1]/span[1]/text()'))
        status = is0(e.xpath('div/div[1]/span[2]/text()'))
        loc1 = is0(e.xpath('div/div[2]/span[1]/text()'))
        loc2 = is0(e.xpath('div/div[2]/span[2]/text()'))
        loc3 = is0(e.xpath('div/div[2]/a/text()'))
        area = is0(e.xpath('div/div[3]/span/text()')).strip('建面').strip('㎡')
        tags = str(e.xpath('div/div[5]/span/text()')).strip('[').strip(']')
        unitP = is0(e.xpath('div/div[6]/div[1]/span[1]/text()'))
        totalP = is0(e.xpath('div/div[6]/div[2]/text()')).strip('总价').strip('万/套')
        houses.append([name, type_, status, '{}-{}-{}'.format(loc1,loc2,loc3), area, unitP, totalP, tags])
        
df = pd.DataFrame(houses, columns = ['小区名称', '类型', '状态', '地址', '面积(平米)', '单价(元/平米)', '总价(万元)', '标签'])

df.to_csv('合肥新楼盘.csv', encoding = 'gbk')
   

得到的结果如下表
表格前25行
另外,本人使用爬虫只为研究技术实现,如有冒犯请告知。
还是希望大家多多指教呀!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值