python3爬虫:利用正则抓取博客文章列表和地址

题目:抓取博客https://www.cnblogs.com/ 里的文章标题和url地址。并将标题和url输出的console。

代码如下图,思路和注释也在图中:

#!usr/bin/env python3
#-*-coding=utf-8-*-
__author__='km'
import urllib.request
from re import *
import re
def download(url):
    result = urllib.request.urlopen(url=url)
    content = result.read()
    htmlStr = content.decode("utf-8")
    return htmlStr
def analyes(htmlStr):
    aList = findall('<a[^>]*post-item-title[^>]*>[^<]*</a>',htmlStr)
    result = []
    for a in aList:
        #search的这种方法,代码没有运行成功,这里的g没有提取出来,暂时没有找到原因。于是换了findall的方法
        #g = search('herf[\s]*=[\s]*[\'"]([^>\'""]*)[\'"]', a)
        g = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+',a)
        #if g != None:
        #    url = g.group(1)
        #    print('2',url)
        index1 = a.find(">")
        index2 = a.rfind("<")
        title = a[index1 + 1:index2]
        d = {}
        d['url'] = g
        d['title'] = title
        result.append(d)
    return result
def crawler(url):
    html = download(url)
    blogList = analyes(html)
    for blog in blogList:
        print("title:",blog["title"])
        print("url:",blog["url"])

if __name__=='__main__':
    crawler('https://www.cnblogs.com/')

运行结果:

疑问:

正则那块使用search,则得到的g=None,导致没有获取到url。暂没有找到原因,如果有大佬知道,求解释。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值