我已经审查了围绕HTML在Python中进行JSON解析的可能解决方案,但无法确定正确的解决方案。
内容:
原型的一部分:我正在使用request.get()方法从第三方组织接收数据。响应为HTML 4.0(loose.dtd格式)。
问题陈述:使用Json.dumps和file.write操作,我已将此响应保存到本地文件(期望它是JSON)。
但内容并不解析出任何HTML标记(如,等)
我需要将此HTML内容转换为JSON(或字典)。我想将其用作数据源。
观察结果:我遇到了一些Java代码段,他们尝试手动解析。希望有一种实现此目标的最佳方法。
样品响应
\r\n\r\nNumber\r\n
bgcolor=\"#eeeeff\">Volcano Name
\r\nbgcolor=\"#eeeeff\">Country
\r\nRegion\r\nbgcolor=\"#eeeeff\">Latitude
\r\nbgcolor=\"#eeeeff\">Longitude
\r\nElev\r\nbgcolor=\"#eeeeff\">Type
\r\nStatus\r\nbgcolor=\"#eeeeff\">
href=\"\"OnClick=\"hold=window.open('/nndc/DescribeField.jsp?dataset=102557&s=77&field_name=HAZ.VOL_LOC_TSQP.TIME_ERUPT