curl保存整个html页面,从cURL请求中正确格式化HTML

我正在研究一个小程序,它允许用户输入新闻文章或其他网页(日文)的URL,并在我的页面的iFrame中查看该页面的内容。这个想法是,一旦内容被加载到页面中,用户可以使用它们的光标来突出显示单词,该单词将所选文本存储在数组中(用于翻译/添加到术语的个人词典),并将文本包围在红色框中(div)根据我的域上定义的样式表。为此,我使用cURL来检索外部页面的HTML并将其转储到iFrame的源代码中。从cURL请求中正确格式化HTML

但是,我不断遇到检索到的HTML的主要格式问题。最大的问题是保留样式表,为了解决这个问题,我使用DOMDocument将标签添加到检索到的HTML部分。这适用于某些网页/网址,但许多其他网页的输出HTML仍存在很多样式问题。例如,div层相互碰撞,对齐关闭,背景丢失。由于我需要将输出HTML嵌入到一个新的函数中,以便使嵌入式内容中的文本选择能够传递的onClick javascript函数正常工作,这意味着所得到的源代码看起来像这样:

似乎大部分我所遇到的很多格式问题在很大程度上都是随意的。我试过使用PHP Tidy清理HTML输出,但这也只适用于某些页面,但不适用于其他页面。我有一个轻微的怀疑,它可能与CDATA声明在处理DOMDocument时被奇怪地解析,但我不确定。

有没有一种方法可以保证cURL的HTML输出在所有情况下都能正确和忠实地呈现?或者,有没有更好的方法去做这件事?我尝试了很多不同的方法来解决这个问题,并且每个方法都更接近解决方案,但也带来了自己的新问题。

谢谢 - 让我知道我是否可以澄清任何事情。

2012-05-02

braunsg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值