最近试了下HTML解析,感觉挺有趣的,忙里偷闲爬上来叨叨一下。
要是有大兄弟也想要相关资料的话戳这里,暗号csdn,欢迎来耍。
不讲废话了,下面开始。
面对页面解析难题(Gordian Knot)的时候,不假思索地直接写几行语句来抽取信息是非常直接的做法。但是,像这样鲁莽放纵地使用技术,只会让程序变得难以调试或脆弱不堪,甚至二者兼具。在开始解析网页之前,让我们看一些在解析复杂的 HTML 页面时需要避免的问题。
假如你已经确定了目标内容,可能是采集一个名字、一组统计数据,或者一段文字。你的目标内容可能隐藏在一个 HTML“烂泥堆”的第 20 层标签里,带有许多没用的标签或HTML 属性。假如你不经考虑地直接写出下面这样一行代码来抽取内容:
bsObj.findAll("table")[4].findAll("tr")[2].find