正则表达式
冰彡棒
每天进步一点点,你也可以在难受的时候,买一张机票去自己想去的地方,而不是躲在被窝里哭。
展开
-
06Python爬虫---正则表达式01之原子
原子:正则表达式中最基本的组成单位,每个正则表达式中至少包含一个原子,原子有以下几类(1)普通字符作为原子(2)非打印字符作为原子(3)通用字符作为原子(4)原子表(1)普通字符作为原子import repattern = "yue"string = "http://yum.iqianyue.com"result = re.search(pattern,原创 2018-01-16 14:26:08 · 439 阅读 · 0 评论 -
06Python爬虫---正则表达式02之元字符
元字符表 符号 含义 . 匹配除换行符以外的任意字符 ^ 匹配字符串的开始位置 $ 匹配字符串的结束位置 * 匹配0次、1次或者多次前面的原子 ? 匹配0次或1次前面的原子 + 匹配1次或多次前面的原子 {n} 前面的原子恰好出现n次 {n,} 前面的原子至少出现了n次 {n,原创 2018-01-16 15:43:29 · 261 阅读 · 0 评论 -
06Python爬虫---正则表达式03之模式修正_贪婪模式与懒惰模式
一、修正模式 符号 含义 I 匹配时忽略大小写 M 多行匹配 L 做本地化识别匹配 U 根据Unicode字符及解析字符 S 让.匹配包括换行符,即用了该模式修正后,”.”匹配就可以匹配任意的字符了所谓模式修正,即可以在不改变正则表达式的情况下,通过模式修正符改变正则表达式的含义,从而实现一些匹配结果的调整等功原创 2018-01-16 16:47:31 · 1128 阅读 · 1 评论 -
06Python爬虫---正则表达式04之常用表达式
常用的正则表达式函数 re.match()函数、re.search()函数、全局匹配函数、re.sub()函数一、re.match()函数从源字符串的起始位置匹配一个模式 格式re.match(pattern, string, flag) 第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息import r原创 2018-01-20 15:56:47 · 221 阅读 · 0 评论 -
09Python爬虫---爬虫实战之京东图片
目的:获取京东手机页面的图片 1、打开京东首页(www.jd.com),选择对应的”手机/运营商/数码”分类,并进入“手机”子分类 链接地址:https://list.jd.com/list.html?cat=9987,653,655&page=1 分析网页源码:找到对应的图片代码段: 思路:1、爬取网页2、然后根据正则爬取出 关键内容3、根据关键内容原创 2018-01-30 13:51:43 · 768 阅读 · 4 评论 -
10Python爬虫---爬虫实战之糗事百科段子
目的:获取糗事百科段子 思路:1、爬取网页2、然后根据正则爬取出 关键内容3、根据关键内容 再用正则匹配出 对应的用户名和内容4、循环赋值进行输出源码:import urllib.requestimport redef getcontent(url, page): headers = ("User-Agent", "Mozilla/5.0 (Wi原创 2018-01-30 13:59:09 · 302 阅读 · 2 评论 -
15Python爬虫---爬虫定向爬取腾讯视频网---利刃出击评论
先贴上代码后面补充上解析,代码缺陷没有对对评论的回复进行处理爬取import urllib.requestimport http.cookiejarimport re# ----------对象赋值--------------------------------------------class point(): pass# ----------对象赋值-------...原创 2018-03-09 00:29:02 · 2037 阅读 · 0 评论