使用html编写的是纯文本吗,来自HTML的合理纯文本

我需要任意HTML文件的纯文本表示(例如,博客文章)。到目前为止,这不是一个问题,有几十个HTML到TXT转换器。但是,段落中的文本(读作“p元素”)应该在纯文本视图中证明(到一定数量的列),并且如果可能的话,用连字符来提供更好的可读结果。此外,生成的文本文件必须是UTF-8或UTF-16。

简单的纯文本对话我可以用XSLT做,这几乎是微不足道的。但是文本的合理性超出了它的可能性(不完全正确,因为XSLT是图灵完整的,但足够接近现实)。

FOP和XSL-FO也不起作用。他们按照要求做了,但FOP的纯文本输出很糟糕(开发人员说,它不适合这种用法)。

我还试验过HTML - > XSLT - > Roff,但我坚持使用groff,它的Unicode支持远非最佳。由于存在像椭圆(“...”)和印刷正确的配额标记这样的字符,因此在XSLT样式表中告诉groff几十个Unicode字符的转义序列是非常麻烦的。

另一种方法可能是转换为TeX并输出为纯文本,但我以前从未尝试使用(La)TeX。

也许我错过了一些非常简单的事情。有谁有想法,我怎么能实现上述目标?顺便说一句:一个解决方案应该最好在没有root权限的情况下安装,使用PHP,Python,Perl,XSLT或者在一个不太合适的Linux发行版中找到的任何程序。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值