爬虫复习一(parse里面的几种用法/正则的用法/多字符匹配，贪婪模式/多字符匹配，非贪婪模式/正则的五种用法/)

最新推荐文章于 2024-04-15 19:12:08 发布

YRyr.*

最新推荐文章于 2024-04-15 19:12:08 发布

阅读量526

点赞数

分类专栏：爬虫复习文章标签：爬虫复习

本文链接：https://blog.csdn.net/weixin_43152725/article/details/100651310

版权

正则
from urllib import request
from urllib import error

class CollegateRank(object):

def get_page_data(self,url):
    response = self.send_request(url=url)
    if response:
        # print(response)
        with open('page.html','w',encoding='gbk') as file:
            file.write(response)
        self.parse_page_data(response)

    #继续提取下一页，继续发起请求

def parse_page_data(self,response):
    pattern = re.compile('<div\sclass="scores_List">(.*?)<ul\sclass="fany">',re.S)
    sub_str = re.findall(pattern,response)[0]
    #解析分页列表数据
    pattern = re.compile(
        '<dl>.*?<a\shref="(.*?)".*?>'+
        '.*?<img.*?src="(.*?)".*?>'+
        '.*?<a.*?>(.*?)</a>'+
        '.*?<li>.*?：(.*?)</li>'+
        '.*?<li>(.*?)</li>'+
        '.*?<li>.*?：(.*?)</li>'+
        '.*?<li>.*?：(.*?)</li>'+
        '.*?<li>.*?：(.*?)</li>'+
        '.*?<li>.*?：(.*?)</li>.*?</dl>',
        re.S
    )
    ranks = re.findall(pattern,sub_str)
    print(ranks)

    for item in ranks:
        school_info = {}
        school_info['url'] = item[0] #详情url地址
        school_info['icon'] = item[1]
        school_info['name'] = item[2]
        school_info['adress'] = item[3]
        school_info['tese'] = '、'.join(re.findall('<span.*?>(.*?)</span>',item[4]))
        school_info['type'] = item[5]
        school_info['belong'] = item[6]
        school_info['level'] = item[7]
        school_info['weburl'] = item[8]

        print(school_info)

        xiangqing = self.send_request(url=school_info['url'])
        pattern = re.compile(
            '<dd\sclass="left">.*?<li>.*?</li>.*?<li>.*?</li>.*?<li>.*?</li>.*?<li>(.*?)</li>.*?<p>.*?：(.*?)<br />.*?：(.*?)<br />.*?：(.*?)<br

最低0.47元/天解锁文章

YRyr.*

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫复习一(parse里面的几种用法/正则的用法/多字符匹配，贪婪模式/多字符匹配，非贪婪模式/正则的五种用法/)

正则“”". 匹配除了换行符之外的任意字符\d 匹配数字0-9 =>[0-9] => ^\D\D 匹配非数字\s 匹配空白字符(空格 \n \r \t)\S 匹配非空白字符\w 匹配单词字符[a-zA-Z0-9_]\W 匹配非单词字符^ 以…开头$ 以…结尾[0-9a-z] :表示匹配数字0～9，字母a～z[^a-z] : 不匹配a-z之间的字符#...
复制链接

扫一扫

专栏目录