淘宝商品价格定向爬虫

最新推荐文章于 2024-06-02 16:38:43 发布

jgzquanquan

最新推荐文章于 2024-06-02 16:38:43 发布

阅读量4.3k

点赞数 1

分类专栏：爬虫 python 文章标签：爬虫 python 编程淘宝网

本文链接：https://blog.csdn.net/jgzquanquan/article/details/78529327

版权

python 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

爬虫

7 篇文章 3 订阅

订阅专栏

淘宝商品价格定向爬虫

（1）目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格

要实现淘宝的搜索接口，翻页的处理。主要采用了Requests，

bs4库，re库

（2）程序的结构设计：

步骤1：提交商品搜索请求，循环获取页面 getHTMLText()

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

步骤2：对于每个页面，提取商品名称和价格信息 parsePage（）

def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price, title])
    except:
        print("")

步骤3：利用数据结构展示并输出结果 printGoodList()

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号", "价格", "商品名称"))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))

（3）整体代码：

# CrowTaobaoPrice.py
import requests
import re


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price, title])
    except:
        print("")


def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号", "价格", "商品名称"))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))


def main():
    goods = '书包'
    #爬取深度

depth = 3
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44 * i)
            html = getHTMLText(url)
            parsePage(infoList, html)
        except:
            continue
    printGoodsList(infoList)


main()

（4）爬取结果：

序号价格商品名称

1 49.00 送胸包!带充电!高中学生书包男时尚潮流

2 88.00 迪士尼书包小学生女童1-3-6年级公主6-12岁女孩儿童休闲双肩背包

3 149.00 小米双肩包简约休闲多功能书包男女笔记本电脑包时尚潮流旅行背包

4 103.87 韩版小清新双肩包女包帆布休闲旅行包学院风学生上课书包学校背包

5 159.00 双肩包女2017新款韩版潮学院风书包时尚休闲百搭女包软皮旅行背包

6 83.79 简易教室年级读书粉白书包校园低年级军绿色小中号书包小学生

7 43.20 幼儿园书包定制北京故宫博物院男童女生儿童大中小班4 D96O

8 15.83 易清洗女童萌萌甜美生日米奇小号书包小孩子男孩玩具儿童背包毛绒

本文参考：中国大学mooc 北京理工大学 Python网络爬虫与信息提取课程

链接：http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001#/learn/content?type=detail&id=1002703035&cid=1003101004&replay=true

jgzquanquan

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
淘宝商品价格定向爬虫

淘宝商品价格定向爬虫（1）目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格要实现淘宝的搜索接口，翻页的处理。主要采用了Requests，bs4库，re库（2）程序的结构设计：步骤1：提交商品搜索请求，循环获取页面 getHTMLText() def getHTMLText(url): try: r = reque
复制链接

扫一扫

专栏目录