58批量数据爬取

爬取58上100页的某商品分类信息,代码如下:

from bs4 import BeautifulSoup
import requests
import time
import lxml

def get_links_from(who_sells,page=1):
    urls = []
    list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'/pn{}/'.format(str(page))
    web_data = requests.get(list_view) 
    soup = BeautifulSoup(web_data.text,'lxml')
    for link in soup.select('td.t > a[onclick]'):
        urls.append(link.get('href').split('?')[0])
    return urls

def get_item_info(who_sells=0,page=1):
    urls=get_links_from(who_sells,page)
    for url in urls:
        web_data = requests.get(url)
        time.sleep(1)
        soup = BeautifulSoup(web_data.text,'lxml')
        data = {
            'title' : soup.select('div.box_left_top > h1')[0].text,
            'price' : soup.select('div.price_li > span > i')[0].text,
            'area' : soup.select('div.palce_li > span > i')[0].text,
            'look_time' : soup.select('div.box_left_top > p > span.look_time')[0].text,
            'want_person':soup.select('div.box_left_top > p > span.want_person')[0].text,
            'cate' :'个人' if who_sells==0 else '商家'
            }
        print(data)

for page in range(1,101): 
    get_item_info(who_sells=0,page=page)

结果如图:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值