网页中很多数据都以列表的形式呈现出来,这一点只要看看各大政府网站发布信息的方式就知道了。这就涉及到怎么自动化地获取到这些数据。下面的思路就是针对解决这个问题的。虽然只写了个思路,但通过这个思路是完全可以设计出来高效的算法的。
我们关注的数据基本是链接或者可点击的元素,姑且称作有效数据吧,这些数据往往是上下排列的。如果计算出这些有效数据的“在网页上的绝对路径”来,那么按照哪些有效元素有共同的父节点来进行分类。每个分类就对应出一块儿数据区域。剩下的问题就是怎么找出有用信息所在的那个区域。
网页中很多数据都以列表的形式呈现出来,这一点只要看看各大政府网站发布信息的方式就知道了。这就涉及到怎么自动化地获取到这些数据。下面的思路就是针对解决这个问题的。虽然只写了个思路,但通过这个思路是完全可以设计出来高效的算法的。
我们关注的数据基本是链接或者可点击的元素,姑且称作有效数据吧,这些数据往往是上下排列的。如果计算出这些有效数据的“在网页上的绝对路径”来,那么按照哪些有效元素有共同的父节点来进行分类。每个分类就对应出一块儿数据区域。剩下的问题就是怎么找出有用信息所在的那个区域。