导出 CSDN 博客至 Markdown

CSDNExporter-master

CSDNExporter-master是一个导出 CSDN 博客至 Markdown 或 PDF 格式的工具。

该笔记记录了我在使用CSDNExporter-master时遇到的一些问题,以及对部分代码的修改。
注:我只测试了Markdown格式的代码,并未对PDF格式进行实践,所以该笔记并未针对PDF格式的代码进行说明。所以保险起见,将与PDF有关的代码注释掉即可。

  1. 安装必要的 Python 库, 如 httpx, requests, BeautifulSoup;
  2. 为了解析图片链接, 需要安装 aria2, 并保证能在命令行启动;
  3. 为了转换为 PDF, 需要安装 Pandoc

代码中的方法注释

argparse

argparse是python用于解析命令行参数和选项的标准模块,用于代替已经过时的optparse模块。argparse模块的作用是用于解析命令行参数。

我们很多时候,需要用到解析命令行参数的程序,目的是在终端窗口(ubuntu是终端窗口,windows是命令行窗口)输入训练的参数和选项。

我们常常可以把argparse的使用简化成下面四个步骤
1:import argparse
2:parser = argparse.ArgumentParser()
3:parser.add_argument()
4:parser.parse_args()

parser.add_argument

parser.add_argument('--with_title', action='store_true')

关于parser.add_argument()记录一个特殊的情况:action

栗子1:self.parser.add_argument('--lr_use', action='store_true', default=False, help='if or not use lr_loss')

当在终端运行的时候,如果不加入--lr_use, 那么程序running的时候,lr_use的值为default: False

如果加上了--lr_use,不需要指定True/False,那么程序running的时候,lr_use的值为True

栗子2: self.parser.add_argument('--no_flip', action='store_false', help='.....')

当在终端运行的时候,并没有加入--no_flip, 数据集中的图片并不会翻转,打印出来看到no_flip的值为True

Note:有default值的时候,running时不声明就为默认值,

没有的话,如果是store_false,则默认值是True,如果是store_true,则默认值是False

实在记不住搞混的话,可以每次在run之前print出来看一下值是true还是false,这样比较保险

soup = BeautifulSoup()

soup = BeautifulSoup(response.content, 'html.parser', from_encoding="utf-8")

Python中BeautifulSoup库的用法

代码中需要修改的地方

1.global language

utils.py文件中的recursive方法最前面加一个global language

防止出现 UnboundLocalError: local variable ‘language’ referenced before assignment 的异常
在这里插入图片描述

2.增加代码高亮的解析

elif tag in ['mark']:
    soup.contents.insert(0, NavigableString('=='))
    soup.contents.append(NavigableString('=='))

3.增加引用的解析

修改elif tag == 'p':分支中的代码

elif tag == 'p':
    if soup.parent.name == 'blockquote':
        for content in soup.contents:
            if isinstance(content, NavigableString):
                content.string = '>' + content.string.strip() + '\n'
    elif soup.parent.name != 'li':
        # print(soup.parent)
        soup.contents.insert(0, NavigableString('\n'))

4.完善列表解析

elif tag in ['li']:
    soup.contents.insert(0, NavigableString('+ '))
    soup.contents.append(NavigableString('\n'))

5.博客标题特殊符号出错

若博客标题名为Linux C/C++,那么文件输出时会出错,因为会把该标题当成 Linux C/C++路径,导致找不到该文件夹
需在执行html2md前对title进行处理

title = '_'.join(title.replace('*', '').strip().split())
title = title.replace('/', '_')

6.图片的保存路径

每个xxx.md的图片都保存到xxx.assets

1.首先在Parser类中将fig_dir设置成外部传参的形式
在这里插入图片描述

2.修改recursive方法中elif tag == 'img': 分支下的代码

md_img_txt_arr = img_file.split('/')
md_img_txt = "/".join(md_img_txt_arr[1:len(md_img_txt_arr)])
code = '![{}]({})'.format(md_img_txt, md_img_txt)

在这里插入图片描述

3.在html2md方法中新增一个参数fig_dir,并在初始化Parser类的时候将其传入
在这里插入图片描述

4.在调用html2md前设置fig_dir的路径

fig_dir = join(md_dir, title + '.assets')

在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值