Python+大数据-数仓实战之滴滴出行(二)

Python+大数据-数仓实战之滴滴出行(二)

1. 数据转移

image-20220817105330631

#验证sqoop是否工作
/export/server/sqoop-1.4.7/bin/sqoop list-databases \
--connect jdbc:mysql://192.168.88.100:3306/ \
--username root \
--password 123456 

2. MySQL建表

1:mysql创建目标数据库和目标表
    #创建目标数据库
    create database if not exists app_didi;
     
    #创建订单总笔数目标表
    create table if not exists app_didi.t_order_total(
        order_date date,
        count int
    );

导出订单总笔数表数据
    /export/server/sqoop-1.4.7/bin/sqoop export \
    --connect jdbc:mysql://192.168.88.100:3306/app_didi \
    --username root \
    --password 123456 \
    --table t_order_total \
    --export-dir /user/hive/warehouse/app_didi.db/t_order_total/month=2020-04
    
    
2.在mysql中创建目标表

    create table if not exists app_didi.t_order_subscribe_name_count( 
        date_val date comment '日期', 
        subscribe_name varchar(20) comment '预约和非预约名字',
        total_cnt int comment '订单数'
    ) ;

sqoop导出
    /export/server/sqoop-1.4.7/bin/sqoop export \
    --connect jdbc:mysql://192.168.88.100:3306/app_didi \
    --username root \
    --password 123456 \
    --table t_order_subscribe_name_count \
    --export-dir /user/hive/warehouse/app_didi.db/t_order_subscribe_name_count/month=2020-04
    
    #创建不同时段订单统计目标表
    --1:在mysql创建目标表
    create table if not exists app_didi.t_order_timerange_total(
        order_date date ,
        timerange varchar(20) ,
        count int 
    );


   --2:sqoop导出
    /export/server/sqoop-1.4.7/bin/sqoop export \
    --connect jdbc:mysql://192.168.88.100:3306/app_didi \
    --username root \
    --password 123456 \
    --table t_order_timerange_total \
    --export-dir /user/hive/warehouse/app_didi.db/t_order_timerange_total/month=2020-04




    #创建不同地域订单统计目标表
    --1:在mysql创建目标表
    create table if not exists app_didi.t_order_province_total(
     order_date date ,
     province varchar(20) ,
     city varchar(20),
     count int 
   );

   --2:sqoop导出
    /export/server/sqoop-1.4.7/bin/sqoop export \
    --connect jdbc:mysql://192.168.88.100:3306/app_didi \
    --username root \
    --password 123456 \
    --table t_order_province_total \
    --export-dir /user/hive/warehouse/app_didi.db/t_order_province_total/month=2020-04


   #创建不同年龄段,不同时段订单目标表
   --1: 在mysql创建目标表
    create table if not exists app_didi.t_order_age_and_time_range_total(
        order_date date ,
        age_range varchar(20) ,
        order_time_range varchar(20) ,
        count int 
    );
    --2:sqoop导出

    /export/server/sqoop-1.4.7/bin/sqoop export \
    --connect jdbc:mysql://192.168.88.100:3306/app_didi \
    --username root \
    --password 123456 \
    --table t_order_age_and_time_range_total \
    --fields-terminated-by '\t' \
    --export-dir /user/hive/warehouse/app_didi.db/t_order_age_and_time_range_total/month=2020-04
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于Python大数据结合的亚马逊电商项目实战,可以考虑以下几个方面: 1. 数据采集:使用Python的爬虫技术,获取亚马逊电商的商品信息、评论数据等。可以使用第三方库如Scrapy、BeautifulSoup等进行网页解析和数据提取。 2. 数据存储:将采集到的数据存储到适合大数据处理的存储系统中,如Hadoop分布式文件系统(HDFS)、HBase等。可以使用Python的相关库如pydoop、happybase等进行数据的读写操作。 3. 数据清洗和处理:使用Python的数据处理库如Pandas、NumPy等对采集到的数据进行清洗和预处理,例如去除重复数据、处理缺失值、数据转换等。 4. 数据分析和挖掘:利用Python的数据分析库如Matplotlib、Seaborn、Scikit-learn等对清洗后的数据进行可视化分析和机器学习算法建模,以探索用户行为、商品销售趋势等重要信息。 5. 推荐系统开发:基于用户行为和商品数据,可以使用Python的机器学习库如TensorFlow、PyTorch等构建推荐系统模型,为用户提供个性化的商品推荐。 6. 可视化展示:使用Python的可视化库如Dash、Bokeh等将分析结果以图表、报表等形式进行展示,方便决策者和业务人员理解和使用分析结果。 以上只是一个简单的实战方向,具体的项目实施还需要根据需求进行调整和完善。同时,还需要了解亚马逊电商网站的相关政策和法规,确保项目的合规性。祝您项目顺利!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值