Python正则部分

1、正则

  • 正则替换
url_1 = 'A%E7%94%B1%E8%A1%8C&fhLimit=0%2C60&hlFields=title&isTouch=0&lines6To10=0&lm=1800%2C60&m=l%2CbookingInfo%2CbrowsingInfo%2Clm&o=pop-desc&random=982944&s=all&sourcepage=list&t=all&tf=pcindex_free&tm=djnull&userId=00005c80306c29d3c5d0e4c0'
num_count = 10000
a = re.search(r'lm=(\d+?)%2C60', url_1).group(0)
page_num = re.search(r'lm=(\d+?)%2C60', url_1).group(1)
next_page_num = int(page_num) + 60
if next_page_num < num_count:
    new_a = f'lm={next_page_num}%2C60'
    # a为 要被替代的部分,new_a为 新替换的字符串部分,url_1为 整体字符串
    next_page_url = re.sub(a, new_a, url_1)
    print(next_page_url)
  • ‘\’: 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\’ 匹配 "\ ",而 ‘\ (’ 则匹配 “(”。
  • r’’,表示原生字符串
  • \,表示不转义

import re
pattern = re.compile(r'expression{}expression'.format(var))

  • 正则匹配所有字符串(包括换行符)
import re
pattern = re.compile(r'href="([\s\S]*)"')
# demo
import re
a = ''''''
pattern = re.compile(r'edge_media_to_parent_comment([\s\S]+)viewer_has_liked')


pattern2 = re.compile(r'"node":\{"id":(.+?),"text":"([\s\S]+?)","created_at')
str_1 = pattern2.findall(a)
# print(str_1)
for str in str_1:
    a, b = str
    print(b.encode('unicode-escape').decode())
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值