python爬取淘宝商品信息以及正则表达式

最新推荐文章于 2023-04-02 19:44:01 发布

鹏鹏写代码

最新推荐文章于 2023-04-02 19:44:01 发布

阅读量2k

点赞数 5

分类专栏： python 爬虫文章标签： python 正则表达式

本文链接：https://blog.csdn.net/qq_44176343/article/details/106077011

版权

本文介绍了Python中正则表达式的概念和作用，包括其简洁表达一组字符串的能力，以及用于字符串匹配的Re库。通过实例展示了如何使用Re库进行正则表达式操作，并分享了一个Python爬虫案例，用于爬取淘宝商品信息。欢迎各位读者交流讨论。

摘要由CSDN通过智能技术生成

正则表达式

1.正则表达式：用来简洁表达一组字符串的表达式；
2.一行胜千言
3.‘PY’开头，后续存在不多于10个字符，后续字符不能是‘P’或者‘Y’；
4.通用字符串表达框架
5.简洁表达一组字符串的表达式；
6.针对字符串表达“简洁”和“特征”思想的工具；
7.判断某字符串的特征归属；
8.正则表达式的作用：
（1）表达文本类型的特征；
（2）同时查找或替换一组字符串；
（3）匹配字符串的全部或部分；
9.正则表达式的语法：正则表达式由字符和操作符构成；

Re库

1.Re库是python的标准库，主要用于字符串匹配；
2.调用方法：import re
3.正则表达式的表示类型：raw string类型（原生字符串类型:不包含转义符的字符串），re库采用raw string类型表达正则表达式，表示为：r’text’。

爬虫案例:淘宝信息爬虫

源代码：

python爬取淘宝商品信息

import requests 
import re

def getHTMLText(url):
    try:
        headers = \
        {
   
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
            'Cookie':'cna=rMvxE5KEPygCAXyYz3ySaWmo; tracknick=t_1499512875051_0521; tg=0; enc=WKhhjIEw5hx%2FRJKFnn7FwgHiYOazZBxLXrZQxncWTkMGcJ%2FkYbmGPDdtKo0VQ3Pqd9q0t77d6W3kwCKBUcYK4Q%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; miid=973723631245416133; _cc_=U%2BGCWk%2F7og%3D%3D; t=b163eabb82d02ed05c037f22b430e91d; _m_h5_tk=481d0a05dd192d8490270d96237044d0_1580035714907; _m_h5_tk_enc=033a7edcd36664ca087d0a9e2b68acad; thw=cn; cookie2=1e6d43b1fa16858277b7385b64632dba; v=0; _tb_token_=d718679859e7;

最低0.47元/天解锁文章

鹏鹏写代码

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
3
评论
python爬取淘宝商品信息以及正则表达式

正则表达式1.正则表达式：用来简洁表达一组字符串的表达式；2.一行胜千言3.‘PY’开头，后续存在不多于10个字符，后续字符不能是‘P’或者‘Y’；4.通用字符串表达框架5.简洁表达一组字符串的表达式；6.针对字符串表达“简洁”和“特征”思想的工具；7.判断某字符串的特征归属；8.正则表达式的作用：（1）表达文本类型的特征；（2）同时查找或替换一组字符串；（3）匹配字符串的全部或部分；9.正则表达式的语法：正则表达式由字符和操作符构成；Re库1.Re库是python的标准库，主要
复制链接

扫一扫