Python爬虫爬取网页数据

本篇文章介绍爬虫爬取某租房信息数据,数据仅用于学习使用无商业用途。

首先在Python Console 控制台中安装requests、parsel模块,requests发送网络请求获取数据,parsel用于对数据源进行解析。

pip install requests

pip install parsel

下面开始实操代码:

import requests
import parsel

# file = open("C:\\Users\\AUSU\\Desktop\\租房数据.txt", "a")
# for i in range(98):
# url = "https://hz.lianjia.com/zufang/pg" + str(i + 2) + "rt200600000002/#contentList"
url = "https://nj.lianjia.com/zufang/pg3/#contentList"
header = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"
}
response = requests.get(url=url, headers=header)
selector = parsel.Selector(response.text)

lis = selector.css(".content__list--item--main ")
for li in lis:
    title = li.css(".content__list--item--title a::text").getall()
    if title:
        info = str(title).replace("\\n", "").replace(" ", "").replace("[", "").replace("'", "").replace("]", "")
    location: list = li.css(".content__list--item--des a::text").getall()
    if location:
        area = str("-".join(location))
    address: list = li.css(".content__list--item--des ::text").getall()
    if address:
        addressInfo = str(address).replace("\\n", "").replace(" ", "").replace("[", "").replace("]", "") \
            .replace("'-'", "").replace("'", "").replace(",", "")
    price = li.css(".content__list--item-price em::text").get()
    result = info + "|" + area + "|" + addressInfo + "|" + price + "元"
    # file.write(result)
    # file.write("\n")
    print(result)

 

  • 2
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值