网络爬虫
李润泽
这个作者很懒,什么都没留下…
展开
-
使用Sqoop将Hive结果迁移至Mysql(四)
使用Sqoop将结果进行数据迁移,存放在mysql中。1. 用Sqoop创建link和jobpackage com.yc.elm.utils;import org.apache.sqoop.client.SqoopClient;import org.apache.sqoop.model.MDriverConfig;import org.apache.sqoop.model.MFro原创 2017-09-05 14:56:40 · 753 阅读 · 0 评论 -
根据业务需求对饿了么数据进行数据清洗(三)
一、明确业务需求统计商家所有商品的平均评分作为该商店的评分,取出分数最高的前三十商家。(有效数据不包括月售量小于10、评分为0的)二、进行MapReduce清洗package com.yc.elm.utils;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.ap原创 2017-09-05 14:26:26 · 899 阅读 · 0 评论 -
解析Json格式的饿了么数据(二)
推荐使用在线格式化工具:http://tool.oschina.net/codeformat/json将获取的json数据格式化找出我们需要的字段信息,在java中写出实体类,注意属性的类型。写出实体类商家类:public class Shop { private Integer id; //店铺ID private String name; //店铺名称 pr原创 2017-08-30 10:20:17 · 2519 阅读 · 1 评论