网络数据获取 :web Crawler heritrix(JAVA) 网页数据净化工具: htmlparser Jsoup Jsoup是基于Java的开源程序,可以直接解析出网页中的URL地址和其中的文本