Python爬虫基础学习.3

疯狂的超级玛丽

于 2024-07-22 13:13:21 发布

阅读量372

点赞数 3

分类专栏：爬虫文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/2401_86168842/article/details/140600652

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

使用requests库+re库爬取淘宝搜索商品页面的商品信息

（1）分析网页源码

打开淘宝，输入关键字“python”，然后搜索，显示如下搜索结果

从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=python

然后翻页，先跳到第二页，url变为：

再跳到第三页，url变为：

经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）

所以可以根据关键字“s=”，来设置爬取的深度（爬取多少页）

右键查看源码：

分析商品名称和商品价格分别由哪个关键字控制：

商品名称可能的关键字是“title”和“raw_title”，进一步多看几个商品的名称，发现选取“raw_title”比较合适；商品价格自然就是“view_price”(通过比对淘宝商品展示页面)；

所以商品名称和商品价格分别是以 “raw_title”:“名称” 和 “view_price”:“价格”，这样的键/值对的形式展示的。

（2）分析如何实现

与上一个例子爬取“最好大学排名”不同，淘宝商品信息不像之前的大学信息是以HTML格式嵌入的，这里的商品信息并未以HTML标签的形式处理数据，而是直接以脚本语言放进来的，所以不需要用BeautifulSoup来解析，直接用正则表达式提取关键字信息即可

（3）提取信息

写个demo，看看是如何一步步解析信息的

# coding:utf-8

import requests
import re

goods \= '水杯'
url \= 'https://s.taobao.com/search?q=' + goods

r \= requests.get(url=url, timeout=10)
html \= r.text

tlist \= re.findall(r'\\"raw\_title\\"\\:\\".\*?\\"', html)  # 正则提取商品名称
plist = re.findall(r'\\"view\_price\\"\\:\\"\[\\d\\.\]\*\\"', html)  # 正则提示商品价格

print(tlist)
print(plist)
print(type(plist))  #  正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

去掉列表中的键，只留下值，也就是去掉每组数据的“raw_title”和“view_price”


print('第一个商品的键值对信息：', tlist\[0\])  # 查看第一个商品的键值对信息
a = tlist\[0\].split(':')\[1\]  # 使用split()方法以":"为切割点，将商品的键值分开，提取值，即商品名称
print('第一个商品的名称', a)
print(type(a))  # 查看a的类型
b = eval(a)  # 使用eval()函数，去掉字符串的引号
print('把商品名称去掉引号后', b)  # 查看去掉引号后的效果
print(type(b))  # 查看b的类型

利用for循环，把每个商品的名称和价格组成一个列表，然后把这写列表再追加到一个大列表中：

goodlist = \[\]
for i in range(len(tlist)):
    title \= eval(tlist\[i\].split(':')\[1\])  # eval()函数简单说就是用于去掉字符串的引号
    price = eval(plist\[i\].split(':')\[1\])
    goodlist.append(\[title, price\]) # 把每个商品的名称和价格组成一个小列表，然后把所有商品组成的列表追加到一个大列表中
    print(goodlist)

完整代码：

# coding: utf-8

import requests
import re

# def getHTMLText(url):
#     try:
#         r = requests.get(url, timeout=30)
#         r.raise\_for\_status()
#         r.encoding = r.apparent\_encoding
#         return r.text
#     except:
#         return ""
#
#
# def parsePage(ilt, html):
#     try:
#         plt = re.findall(r'\\"view\_price\\"\\:\\"\[\\d\\.\]\*\\"', html)
#         tlt = re.findall(r'\\"raw\_title\\"\\:\\".\*?\\"', html)
#         for i in range(len(plt)):
#             price = eval(plt\[i\].split(':')\[1\])
#             title = eval(tlt\[i\].split(':')\[1\])
#             ilt.append(\[price, title\])
#     except:
#         print()
#
#
# def printGoodsList(ilt):
#     tplt = "{:4}\\t{:8}\\t{:16}"
#     print(tplt.format("序号", "价格", "商品名称"))
#     count = 0
#     for t in ilt:
#         count = count + 1
#         print(tplt.format(count, t\[0\], t\[1\]))
#
#
# def main():
#     goods = '高达'
#     depth = 3
#     start\_url = 'https://s.taobao.com/search?q=' + goods
#     infoList = \[\]
#     for i in range(depth):
#         try:
#             url = start\_url + '&s=' + str(44 \* i)
#             html = getHTMLText(url)
#             parsePage(infoList, html)
#         except:
#             continue
#     printGoodsList(infoList)
#
#
# main()

def get\_html(url):
    """获取源码html"""
    try:
        r \= requests.get(url=url, timeout=10)
        r.encoding \= r.apparent\_encoding
        return r.text
    except:
        print("获取失败")

def get\_data(html, goodlist):
    """使用re库解析商品名称和价格
    tlist:商品名称列表
    plist:商品价格列表"""
    tlist \= re.findall(r'\\"raw\_title\\"\\:\\".\*?\\"', html)
    plist \= re.findall(r'\\"view\_price\\"\\:\\"\[\\d\\.\]\*\\"', html)
    for i in range(len(tlist)):
        title \= eval(tlist\[i\].split(':')\[1\])  # eval()函数简单说就是用于去掉字符串的引号
        price = eval(plist\[i\].split(':')\[1\])
        goodlist.append(\[title, price\])

def write\_data(list, num):
    # with open('E:/Crawler/case/taob2.txt', 'a') as data:
    #    print(list, file=data)
    for i in range(num):  # num控制把爬取到的商品写进多少到文本中
        u \= list\[i\]
        with open('E:/Crawler/case/taob.txt', 'a') as data:
            print(u, file=data)

def main():
    goods \= '水杯'
    depth \= 3   # 定义爬取深度，即翻页处理
    start\_url = 'https://s.taobao.com/search?q=' + goods
    infoList \= \[\]
    for i in range(depth):
        try:
            url \= start\_url + '&s=' + str(44 \* i)  # 因为淘宝显示每页44个商品，第一页i=0,一次递增
            html = get\_html(url)
            get\_data(html, infoList)
        except:
            continue
    write\_data(infoList, len(infoList))

if \_\_name\_\_ == '\_\_main\_\_':
    main()

最后这里免费分享给大家一份Python全台学习资料，包含视频、源码。课件，希望能帮到那些不满现状，想提升自己却又没有方向的朋友，也可以和我一起来学习交流呀。
编程资料、学习路线图、源代码、软件安装包等！【文末】领取！
① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，学习不再是只会理论
④ 华为出品独家Python漫画教程，手机也能学习
⑤ 历年互联网企业Python面试真题,复习时非常方便
————————————————

在这里插入图片描述

疯狂的超级玛丽

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础学习.3

与上一个例子爬取“最好大学排名”不同，淘宝商品信息不像之前的大学信息是以HTML格式嵌入的，这里的商品信息并未以HTML标签的形式处理数据，而是直接以脚本语言放进来的，所以不需要用BeautifulSoup来解析，直接用正则表达式提取关键字信息即可。所以商品名称和商品价格分别是以 “raw_title”:“名称” 和 “view_price”:“价格”，这样的键/值对的形式展示的。经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）
复制链接

扫一扫

专栏目录