爬虫项目(四)之京东评论

爬虫项目(四)之京东评论

在这里插入图片描述
最近,出了小米9,听说可以拍月亮,好像挺酷的。就来JD看看网友们是怎么评论的。

经过爬取信息总结得到,小米还是挺不错的。

方法就是通过一个url链接获取评论信息字符串,然后转成json,然后分词,获取词频最多的关键词。

这样你可以收集电影影评,餐店点评等。

 JSONObject jsonObject =parseJSONP(html);

            JSONArray comments = jsonObject.getJSONArray("comments");
            for (int j = 0, k=comments.size(); j<k; j++){
                JSONObject jo = comments.getJSONObject(j);
                String content = jo.getString("content");
                //去除非中文
                String rex = "[^\\u4e00-\\u9fa5]";
                Pattern compile = Pattern.compile(rex);
                Matcher matcher = compile.matcher(content);

                content = matcher.replaceAll("");
                sb.append(content);
            }

爬虫不一定用框架,只要思路正确,怎么方便就怎么爬取。想学习的,下载源码如下:
http://47.98.237.162/detail/1/197

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值