这个功能主要是:先确定帖子的地址,然后获取html代码, 通过jsoup解析html, 然后把楼主发的提取出来保存到book.html
除了jsoup的使用, 更多的是要看贴吧帖子的大体结构:
1、先解析出楼主的用户名:
差看html代码可以知道用户名是在class="p_author_name" 的div里, 楼主当然是第一个,所以:
String lz = doc.getElementsByClass("p_author_name").get(0).html();
2、发现回复的主体是在 class="p_postlist"这个div里面的, 先把这个提取出来Element e = doc.getElementsByClass("p_postlist").get(0);
3、把每一个回复 class="l_post"取出来, 然后遍历
Elements es = e.getElementsByClass("l_post");// 把每一个记录取出来
for (Element tmp : es) {// 遍历
if (lz.equals(tmp.getElementsByClass("p_author_name")
.html())) {//如果是楼主就保存起来
String html = tmp.getElementsByClass("d_content").get(0).html();
html = html.replaceAll("<img[\\d\\D]+/>", "[图片]");
sb.appe