爬虫项目(四)之京东评论
最近,出了小米9,听说可以拍月亮,好像挺酷的。就来JD看看网友们是怎么评论的。
经过爬取信息总结得到,小米还是挺不错的。
方法就是通过一个url链接获取评论信息字符串,然后转成json,然后分词,获取词频最多的关键词。
这样你可以收集电影影评,餐店点评等。
JSONObject jsonObject =parseJSONP(html);
JSONArray comments = jsonObject.getJSONArray("comments");
for (int j = 0, k=comments.size(); j<k; j++){
JSONObject jo = comments.getJSONObject(j);
String content = jo.getString("content");
//去除非中文
String rex = "[^\\u4e00-\\u9fa5]";
Pattern compile = Pattern.compile(rex);
Matcher matcher = compile.matcher(content);
content = matcher.replaceAll("");
sb.append(content);
}
爬虫不一定用框架,只要思路正确,怎么方便就怎么爬取。想学习的,下载源码如下:
http://47.98.237.162/detail/1/197