python截取数组前几个_自己写的几个学习Python的工具(1)-截取网页为Markdown文档...

5688b8c52b2b1b5766d959b89c69f0ae.png

平时为了学习Python,经常要到网上去查一些资料,很多时候就特别希望把一些内容保留下来,所以就希望能把网页里的一些内容保存为Markdown·格式,便于存在自己的文件里,或者发布到其他论坛里去。

在网上找了一些程序感觉都不适合自己,于是决定自己写一段。

其实这个程序,也是我后面几个应用的基础,所以下了一些功夫,把它打造成一个通用的库。

你只需要运行一下这个程序

python html2md.py

他就会监控你的剪贴板。

等你打开你学习的网页,选择一下你想保存下来的哪些部分

9e9f4d86dca5f462811dd6f586cdaad7.png

然后按一下Ctrl+C,进行复制

随后进到你的编辑器,按一下Ctrl+V,进行粘贴

f6f3f417a975ec97d614500a76ee70d3.png

看到木有,原来的网页变成Markdown文本了,右边是markdown的预览

是不是比原来网页似乎还漂亮一些。

很爽、很轻松吧。

程序缺省的输出,是依照Github的GFM标准来的,你要是希望把结果直接贴到其他论坛去,你可以按照那些论坛的标准,对程序的一些功能进行开关,可选参数有

-h, --help 显示帮助信息
-e, --ignore-emphasis
不包含黑体、斜体这些加重的Tag,缺省是包含
-i, --ignore-images 不包含图像,遇到图像会忽略掉,缺省是包含
-l, --ignore-links 不包含链接,遇到链接会忽略掉,缺省是包含
-d, --def_list 不转换DL、DD这类列表,保留HTML格式,缺省是转换
-t, --table 不转换表格,保留HTML格式,缺省是转换
-s, --strikethrough 不转换删除线,保留HTML格式,缺省是转换
-a, --attrs 保留链接的属性,缺省是不保留
-D, --dash-unordered-list
使用'-'而不是'*'来作为列表的标志, 缺省用'*'
-E, --asterisk-emphasis
使用''而不是'_'来作为斜体的标志,使用'__'而不是'*'来作为斜体的标志, 缺省用‘_‘和'**'
-o OUTPUT_FILE , --output_file OUTPUT_FILE
输出文件名,缺省输出是剪贴板

比如,你要贴到一个论坛里去,那个论坛不支持markdown的表格,你就可以在命令行,加上参数 -t ,你最终文档里的表格会保留HTML格式。

当然你也可以写自己的程序调用这段程序,他本来就是作为一个包来用的

from html2hd import html2hd
markdown = html2md("<p>Hello, world.</p>")

详细内容去访问我的Github吧,包括下载程序

https://github.com/steve-hao/html2md​github.com

有啥想法和建议,随时和我交流啊。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值