python是所谓的爬虫吗_所谓的python web爬虫基础

import re

正则表达式:

常用的符号:点号 问号 星号 和小括号

.:匹配任意字符,换行符\n除外

——点号可以理解为占位符,一个点号匹配一个字符。

*:匹配前一个字符0次或无限次

?:匹配前一个字符0次或者1次

.*:贪心算法(尽可能多的匹配到数据)

.*?:非贪心算法(尽可能多的找到满足条件的组合)

():括号内的数据将会作为结果返回。

常用的方法:findall,Search,Sub

findall:匹配所有符合规律的内容

Search:匹配并提出第一个符合规律的内容,返回一个正则表达式对象

Sub:替换符合规律的内容,返回替换后的值

万能表达式:

(.*?)

多行表达式的匹配

re.S

s='''sdfhajkdxxluhuanxx

lsdhfxxwangpiaoxxsjdkf'''

sub=re,findall('xx(.*?)xx',s,re.S)

//findall和search的区别

sub= re.search('xx(.*?)xxdsfaxx(.*?)xx',s,re.S).group(1)

sub= re.findall('xx(.*?)xxdsfaxx(.*?)xx',s,re.S)

print sub[0][1] //在字符串中存在多行满足匹配规则。

小贴士:

匹配数字

a=sdfasd123415ksadfj2345kdsafj

b=re.findall('(\d+)',a)

匹配原则:

findall 和search匹配使用

先抓大再抓小

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值