html文件转换md,html_to_md: 博客转md格式保存至本地(Save the blog in md format locally)

最新推荐文章于 2024-06-03 17:23:11 发布

weixin_39864373

最新推荐文章于 2024-06-03 17:23:11 发布

阅读量547

点赞数

文章标签： html文件转换md

这是一个Python爬虫程序，用于批量爬取博客园的随笔并保存为JSON和MD格式，支持按目录和分类爬取。程序提供可视化界面，并能将内容转化为适合个人博客搭建的格式，如Hexo。注意，程序可能因博客数量多而出现卡顿，不包含多进程或多线程以减轻博客园负担，仅供学习使用。作者提供了源代码和更新日志，持续优化功能。

摘要由CSDN通过智能技术生成

说明

项目连接

功能介绍

需要安装的python模块

pip3 install requests

pip3 install lxml

pip3 install beautifulsoup4

代码以更新可以运行Crawl_blog_post_6.1.py,可以运行visual.exe,exe文件就不用安装依赖

功能一：批量爬取博客园首页的所有随笔字典并保存JSON文件，且随笔全部转成MD格式文件

功能二：输入指定随笔网址把随笔内容转成MD并且保存

功能三：爬取某个分目录下博客

功能四: 按照分类爬取分类下所有博客,内容添加hexo传输内容包括标题,日期,方便个人博客搭建

由于不同博客具有不同的见状性`要根据博客能让进行适当的修改就可以使用此程序

程序没有加入多进程与多线程进去增加博客园的负担

爬取内容请不要用做商业用途

初衷主要是为了帮助博主把已上传的随笔下载至本地方便修改

更新日志

2019.7.20

增加了功能

功能介绍:爬取某个分目录下博客

版本升级至5.0,增加了可视化界面可视化界面exe程序,增加了见状性,

只需下载exe运行即可

温馨提示:

程序由可能会被流氓杀毒软件屏蔽请自行恢复

绝对无毒的,没有添加任何恶意信息

运行程序第一功能和第三功能会因为博客数量多出现卡顿,由于本人对程序理解还不深刻没能找到解决办法,请大家见谅请不要关闭程序,结束后会自动出现数据的

都是自学的一些模块可能会有点理解不到位请大家见谅,需要原代码的解压密码私聊我就好了.

核心代码在'core_code.py'中注释都加全了

2019.8.21

增加了功能

功能介绍:按照分类爬取分类下所有博客,内容添加hexo传输内容包括标题,日期,方便个人博客搭建

exe文件没有更新,更新了核心文件

修复了:无法获取博客内容

md文本内容匹配更加规范,内容更加完善

2019.9.2

版本更新至6.1

修正了匹配规则

修正了li与ul标签

修正了```格式

修正了最后一行会出现宫格

我将可视化界面代码全部展示了,但是版本还是5.版本的

2019.10.16

生成可视化解码

2019.10.18

修正批量爬取文件标题匹配不到倒bug修正匹配格式

exe文件还未更新,py程序已更新

再次强调

该程序只为了帮助学习

码云名称:YWY

github_id:a568972484

作者博客:小小咸鱼ywy

希望得到大家相关体验,好进行后续的改进,谢谢

weixin_39864373

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html文件转换md,html_to_md: 博客转md格式保存至本地(Save the blog in md format locally)

说明项目连接功能介绍需要安装的python模块pip3 install requestspip3 install lxmlpip3 install beautifulsoup4代码以更新可以运行Crawl_blog_post_6.1.py,可以运行visual.exe,exe文件就不用安装依赖功能一：批量爬取博客园首页的所有随笔字典并保存JSON文件，且随笔全部转成MD格式文件功能二：输入指定随笔...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。