未涉及详情页的信息爬取


所获取信息的url来自于列表页,而非详情页




from bs4 import BeautifulSoup
import requests
import time
import pymongo

client=pymongo.MongoClient('localhost',27017)  #引用MongoDB
Ceshi=client['Ceshi']       #命名
sheet_tab=Ceshi['sheet_tab']  #类似于EXCEL中的sheet
'''
url = 'http://sz.xiaozhu.com/search-duanzufang-p2-0/'
'''
def get_more_pages(page):
    for page_num in range(1,page):
        web_data=requests.get('http://sz.xiaozhu.com/search-duanzufang-p{}-0/'.format(page_num))  #爬取多页
        soup=BeautifulSoup(web_data.text,'lxml')
        titles=soup.select(' div.result_btm_con.lodgeunitname > div > a > span')
        prices=soup.select('span.result_price > i')
        for title,price in zip(titles,prices):
            data={
                'title':title.get_text(),
                'price':price.get_text(),
            }
            sheet_tab.insert_one(data)
    print('Done')
get_more_pages(10)

#数据筛选
for i in sheet_tab:
    if i['price'] > 500:
        print (i)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值