获取新浪微博内容和评论

最新推荐文章于 2023-11-18 00:35:25 发布

Oytyoht

最新推荐文章于 2023-11-18 00:35:25 发布

阅读量1.6k

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/u013588143/article/details/48708451

版权

数据挖掘专栏收录该内容

5 篇文章 1 订阅

订阅专栏

public List<Weibo> getWeiboList(String content) throws ClientProtocolException, IOException{
	Document doc=Jsoup.parse(content);
	Elements sets=doc.getElementsByClass("c");
	List<Weibo> list=new ArrayList<Weibo>();
	System.out.println(sets.size());
	for(Element ele : sets){
		Weibo ww=new Weibo();
		ww.setId(ele.attr("id"));
		if(ele.getElementsByClass("ctt").size()!=0){
		ww.setContent(ele.getElementsByClass("ctt").get(0).text());
		String commentUrl=ele.getElementsByClass("cc").get(0).attr("href");
		if(commentUrl!=null){
			HttpGet get=new HttpGet(commentUrl);
			get.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1; rv:16.0) Gecko/20100101 Firefox/16.0");
		HttpResponse res=client.execute(get);
		HttpEntity entity=res.getEntity();
		String commentContents=EntityUtils.toString(entity,"utf-8");
		Document doc1=Jsoup.parse(commentContents);
		Elements eles =doc1.getElementsByAttributeValueMatching("id", "C_*");
		List<Comment> clist=new ArrayList<Comment>();
		for(Element ele1 : eles){
			Comment comment=new Comment();
			comment.setId(ele1.getElementsByTag("a").get(0).text());
			if(ele1.getElementsByClass("ctt").size()>0){
			comment.setContent(ele1.getElementsByClass("ctt").get(0).text());
			clist.add(comment);}
		}
		ww.setList(clist);
		}
		list.add(ww);}
	}
	return list;
}

Oytyoht

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
获取新浪微博内容和评论

public List getWeiboList(String content) throws ClientProtocolException, IOException{ Document doc=Jsoup.parse(content); Elements sets=doc.getElementsByClass("c"); List list=new ArrayList(); Syste
复制链接

扫一扫