贝壳房价爬取

学习用python写爬虫有几天了,下面写一个小爬虫验证下学习成果吧。 本文适合小白食用,各位大佬您就图个乐~

Tip:本文仅供学习与交流,切勿用于非法用途!!!

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

Python免费学习资料以及群交流解答点击即可加入

一、网页分析

爬取贝壳网石家庄二手房信息,先打开链接 https://sjz.ke.com/ershoufang/在这里插入图片描述 不添加筛选条件,发现总共有42817套房子。我们点击第二页,再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以,可发现/pg{i},i就是页码。经过辣条君体育老师教授的数学,数了一下,一页30个,最多可选100页。 在这里插入图片描述 所以最多可爬取3000套房产信息,距离上面给出的4万多差的还很远,于是尝试把pg{i}的那个i人为改变一下,点击回车请求一下。

https://sjz.ke.com/ershoufang/pg200/

https://sjz.ke.com/ershoufang/pg300/

发现这两个请求,返回房产信息数据都一样。都是第100页的信息,于是乎,得出结论。通过贝壳网web端,查看某一条件下的房产信息,最多可以查看3000套。害,最多才能买3000套,有钱花不出去的感觉真难受啊~ 逃:)~~

在这里插入图片描述 所以呢,我们增加一些条件,比如,满五唯一,2室的。请求之~ 在这里插入图片描述 发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/mw1l2这个玩意应该筛选条件。看到只有2399套,欧克,咱们就爬它了。

二、撸起袖子写代码

麻雀虽小五脏俱全,本爬虫设计三个部分,爬取,解析,储存

爬取

爬取利用requests库,比python内置库urllib要好用很多。

import requests

def get_a_page(url):
    result = requests.get(url)
    print(result.text)
    
if __name__ == '__main__':
    for i in range(1, 101):
        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')
复制代码

for循环打印返回数据,发现没问题。其实i循环到81就好了,毕竟咱们知道了,只有不到2400套嘛。

解析

解析使用pyquery ,这个库使用起来类似于Jquery。完整API,https://pythonhosted.org/pyquery/api.html。还有一个解析库`bs4,下次再尝试。

在这里插入图片描述

发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

import requests
from pyquery import PyQuery as pq
import json

def get_a_page(url):
    result = requests.get(url)
    doc = pq(result.text) 
    ul = doc('.sellListContent')
    divs = ul.children('.clear .info.clear').items()
    for div in divs:
        count += 1
        title = div.children('.title a').text()
        place = div.children('.address .flood .positionInfo a').text()
        msg = div.children('.address .houseInfo').text()
        price = div.children('.address .priceInfo .totalPrice span').text()
        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')
        dict = {
            'title': title,
            'place': place,
            'msg': msg,
            'price': price,
            'per_meter': per_meter
        }
        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))
复制代码

代码如上,pyquery 的children方法是查找子标签,find方法是找子孙标签,此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的,因为那个per_meter从属性中获取比较简单,标签中的内容还包含了“元/平米”。

储存

本次我们直接储存到csv中,一种类似于excel的文件格式。利用的是pandas库。

完整代码如下:

import requests
from pyquery import PyQuery as pq
import json
import pandas as pd

columns = ['title', 'msg', 'price', 'per_meter']

# 爬取某网页
def get_a_page(url):
    result = requests.get(url)
    doc = pq(result.text)
    ul = doc('.sellListContent')
    divs = ul.children('.clear .info.clear').items()
    count = 0
    titles = []
    places = []
    msgs = []
    prices = []
    per_meters = []
    for div in divs:
        count += 1
        title = div.children('.title a').text()
        place = div.children('.address .flood .positionInfo a').text()
        msg = div.children('.address .houseInfo').text()
        price = div.children('.address .priceInfo .totalPrice span').text()
        per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')
        dict = {
            'title': title,
            'place': place,
            'msg': msg,
            'price': price,
            'per_meter': per_meter
        }
        titles.append(title)
        places.append(place)
        msgs.append(msg)
        prices.append(price)
        per_meters.append(per_meter)
        print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))
    datas={
        'title': titles,
        'place': places,
        'msg': msgs,
        'price': prices,
        'per_meter': per_meters
    }
    df = pd.DataFrame(data=datas, columns=columns)
    df.to_csv('sjz.csv', mode='a', index=False, header=False)

if __name__ == '__main__':
    for i in range(1, 101):
        get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')
复制代码

多进程

由于get_a_page函数要运行100次,有点小慢,所以利用多进程加快速度,这部分代码,请直接copy。

将主函数改成如下所示

from multiprocessing.pool import Pool

if __name__ == '__main__':
    pool = Pool(5)
    group = ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/' for x in range(1, 101)])
    pool.map(get_a_page,group)
    pool.close()
    pool.join()
复制代码

三、结束

查看下效果:

在这里插入图片描述 效果还可以。有人会说,为什么不把msg信息拆分一下,分别储存楼层、几室几厅、建筑年代等等多好。刚开始,我是那么做的,结果发现这个msg数据那几项不是必填项,有的建筑年代、楼层什么的房主不填写,索性就整个拿过来了。

辣条君的第一个爬虫就这样结束了。虽然简单,但是写完,还是有点小小的满足感。今后还会继续学习爬虫,写一些博客发出来。小伙伴们,点个赞再走嘛~


作者:啤酒就辣条
链接:https://juejin.cn/post/6888566264822923278
来源:掘金

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首先,你需要安装 scrapy : ```python pip install scrapy ``` 然后,你可以创建一个 scrapy 项目: ```python scrapy startproject beike ``` 进入项目目录,创建一个名为 `beike_spider.py` 的文件,代码如下: ```python import scrapy class BeikeSpider(scrapy.Spider): name = 'beike' allowed_domains = ['bj.ke.com'] start_urls = ['https://bj.ke.com/ershoufang/'] def parse(self, response): img_urls = response.css('.lj-lazy::attr(data-original)').getall() for img_url in img_urls: yield { 'image_urls': [img_url] } ``` 这个爬虫会访问贝壳网二手房页面,提取页面中所有图片的链接并返回。你可以通过以下命令来运行这个爬虫: ```python scrapy crawl beike -o images.json ``` 这个命令会把爬取到的图片链接保存到一个名为 `images.json` 的文件中。如果你想要下载这些图片,可以在 `settings.py` 文件中添加以下配置: ```python ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} IMAGES_STORE = 'images' ``` 这个配置会使用 Scrapy 内置的 `ImagesPipeline` 管道来自动下载图片,并把图片保存到 `images` 目录中。你可以在 `beike_spider.py` 文件中增加以下代码来启用图片下载: ```python class BeikeSpider(scrapy.Spider): # ... def item_completed(self, results, item, info): image_paths = [x['path'] for ok, x in results if ok] if image_paths: item['image_paths'] = image_paths return item ``` 这个代码会在下载完成后自动把图片的路径保存到 `image_paths` 字段中。现在你可以通过以下命令来运行这个爬虫并下载图片: ```python scrapy crawl beike ``` 这个命令会把下载到的图片保存到 `images/full` 目录中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值