- 博客(1)
- 收藏
- 关注
原创 网页爬取内容转Jsonl格式,分为标题+内容(内容为MarkDown)格式
将已切分好的网页爬取数据(包含标题和HTML格式的网页内容)转为Jsonl格式,其中内容转为MarkDown格式。同时剔除内容中的跳转、链接、引用等。
2024-03-21 10:02:22 652
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
将已切分好的网页爬取数据(包含标题和HTML格式的网页内容)转为Jsonl格式,其中内容转为MarkDown格式。同时剔除内容中的跳转、链接、引用等。
2024-03-21 10:02:22 652
TA创建的收藏夹 TA关注的收藏夹
TA关注的人