最近学到安卓网络部分,想试着获取网页上的一些信息并转换成自己定义的格式,因此就要去解析一个html网页并取出想要的信息。
因为安卓并没有自带解析html的相关包,在网上一番查找后,就找到了jsoup,现将使用过程记录如下,方便以后查阅。
jsoup是一个html解析器,通过他可以很方便的解析一个html文件。
下面是他的下载地址和中文手册。
http://jsoup.org/download
http://www.open-open.com/jsoup/
在将就jsoup导入到自己的工程后,就可以调用相关的类和方法进行操作了,我这里做的是对soso音乐搜索主界面的一个解析,获取里面的一个新歌表单。
下面是具体过程。
1.打开soso音乐的主界面,http://music.soso.com/index.html,右键查看源文件(不知道不同浏览器是否都有这个功能,如果没有,可以另存为html文件,然后使用一些文本编辑器打开),将里面的内容复制存储。关于html的知识就自行百度吧,这里不需要了解太多,知道基本格式就可以了。
2.在导入jsoup包后,我们就可以直接在工程里使用,对html文件进行解析了。
附上效果图;try { //获取一个Document对象,里面包含的是这个hmtl文件的所有内容 Document document = Jsoup.connect("http://music.soso.com/index.html").get(); //打印一下获取的内容,可以看到,跟我们要访问的html网页的内容是一样的 System.out.println("doc------->" + doc); //调用select方法查找元素,这里使用的是通过ID来查找元素,可以在html源文件中看到, //#newsong这个ID对应的是新歌/华语那个歌曲列表,我们要取出的就是这部分内容 Elements newsong = document.select("#newSong"); //进一步获取内部元素,这里如果直接去选,会出现将html文件中所有tbody元素选出, //因此要先通过上一步来缩小范围 Elements song = newsong.select("tbody"); //System.out.println("song------->" + song); //下面就是使用迭代器取出歌曲的名字和作者 for (Iterator iterator = song.iterator(); iterator.hasNext();) { Element element = (Element) iterator.next(); //取出元素里的tr标签里的内容,在下面的打印可以看出,已经得到了歌曲的一些基本信息, //但在tr标签内还有td表情内容,因此还需要进一步选取 Elements tempElements = element.select("tr"); //System.out.println("tempElements------->" + tempElements); for (Iterator iterator2 = tempElements.iterator(); iterator2 .hasNext();) { Element element1 = (Element) iterator2.next(); //通过class名称来选取 String name = element1.select("td.song").text(); String singer = element1.select("td.singer").text(); //这里获取的是歌曲的data,里面有歌曲的下载链接,通过函数将链接解析出来, //但那个链接有时候可以用,有时候不可以,不知道这其中是否有权限等的原因,待解答 String urlString = getDownLoadUrl(element1.select("td.data").text()); //下面的打印可以看出取出的内容 //System.out.println("name------->" + name); //System.out.println("singer------->" + singer); //System.out.println("urlString------->" + urlString); //将取出的内容放到一个list里,最后通过listview来显示 HashMap<String, String> map = new HashMap<String, String>(); map.put("mp3_name", name); map.put("mp3_singer", singer); map.put("mp3_url", urlString); list.add(map); } } } catch (Exception e) { // TODO: handle exception e.printStackTrace(); }
网页图: 手机图:
jsoup的使用在它的中文手册上已很详细,有问题可以查阅。因为链接问题,没法通过得到的链接去播放,于是用tomcat搭建了个小服务器,同时实验了一个可用链接,确定通过网络链接是可以实现在线播放的。