python爬取淘宝商品信息以及正则表达式

正则表达式

1.正则表达式:用来简洁表达一组字符串的表达式;
2.一行胜千言
3.‘PY’开头,后续存在不多于10个字符,后续字符不能是‘P’或者‘Y’;
4.通用字符串表达框架
5.简洁表达一组字符串的表达式;
6.针对字符串表达“简洁”和“特征”思想的工具;
7.判断某字符串的特征归属;
8.正则表达式的作用:
(1)表达文本类型的特征;
(2)同时查找或替换一组字符串;
(3)匹配字符串的全部或部分;
9.正则表达式的语法:正则表达式由字符和操作符构成;

Re库

1.Re库是python的标准库,主要用于字符串匹配;
2.调用方法:import re
3.正则表达式的表示类型:raw string类型(原生字符串类型:不包含转义符的字符串),re库采用raw string类型表达正则表达式,表示为:r’text’。

爬虫案例:淘宝信息爬虫

源代码:

python爬取淘宝商品信息
import requests 
import re

def getHTMLText(url):
    try:
        headers = \
        {
   
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
            'Cookie':'cna=rMvxE5KEPygCAXyYz3ySaWmo; tracknick=t_1499512875051_0521; tg=0; enc=WKhhjIEw5hx%2FRJKFnn7FwgHiYOazZBxLXrZQxncWTkMGcJ%2FkYbmGPDdtKo0VQ3Pqd9q0t77d6W3kwCKBUcYK4Q%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; miid=973723631245416133; _cc_=U%2BGCWk%2F7og%3D%3D; t=b163eabb82d02ed05c037f22b430e91d; _m_h5_tk=481d0a05dd192d8490270d96237044d0_1580035714907; _m_h5_tk_enc=033a7edcd36664ca087d0a9e2b68acad; thw=cn; cookie2=1e6d43b1fa16858277b7385b64632dba; v=0; _tb_token_=d718679859e7;
  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鹏鹏写代码

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值