淘宝商品比价定向爬虫

import requests
import re
from bs4 import BeautifulSoup
def getHtmlText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        print("加载超时")
    

def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)  //这两行re表达式,至关重要
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html) 
        for i in range(len(plt)):
            price=eval(plt[i].split(':')[1])
            title=eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("加载错误")

'''
def parsePage(ilt, html):  
    try:  
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)  
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)  
        for i in range(len(plt)):  
            price = eval(plt[i].split(':')[1])  
            title = eval(tlt[i].split(':')[1])  
            ilt.append([price , title])  
    except:  
        print("")  
'''
def printGoodslist(lit):
    tplt="{:4}\t{:8}\t{:16}"
    print(tplt.format("序号","价格","商品名称"))
    count=0;
    for g in lit:
        count=count+1
        print(tplt.format(count,g[0],g[1]))

def main():
    goods="书包"
    depth=2;
    start_url="https://s.taobao.com/search?q="+goods
    infolist = []
    for i in range(depth):
        try:
            url = start_url+'&s='+str(i*44)
            html=getHtmlText(url)
            parsePage(infolist,html)
        except:
            continue
    printGoodslist(infolist)

main()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Meikesibondwell

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值