数据采集项目
VanasWang
这个作者很懒,什么都没留下…
展开
-
项目:数据采集 概念架构
文章目录数据仓库概念项目需求及架构设计项目需求分析项目框架技术选型系统数据流程设计框架版本选型服务器选型服务器选型集群资源规划设计数据生成模块目标数据页面事件曝光启动错误数据埋点主流埋点方式(了解)埋点数据日志结构数据仓库概念对数据存储 管理 给bi提供支持bi 从数据中挖掘数据的价值 指导企业做决策数仓给后续提供支持 可视化自己写加密项目或使用第三方可视化框架项目需求及架构设计项目需求分析维度建模一定要掌握数据分析师会做即席查询 sql不固定元数据 血缘关系 insert项目框原创 2020-05-15 22:44:07 · 1384 阅读 · 0 评论 -
项目:数仓采集(一)配置集群JDK+hadoop+zookeeper+kafka+Flume
文章目录准备服务器设置hostsudo权限编写群发脚本xsync远程访问免密JDK采集日志编写脚本(为了方便)集群所有进程查看脚本Hadoop集群基础配置(重要)core-site.xmlhdfs-site.xmlyarn-site.xmlmapred.site.xmlworkers/slaves配置配置历史服务器日志聚集功能关于集群时间同步关于2nn页面不显示问题**阿里云安全组**Hadoop项目经验HDFS存储多目录集群数据均衡LZO配置基准测试Hadoop参数调优Zookeeper安装与初始化配置K原创 2020-05-15 22:37:48 · 746 阅读 · 0 评论 -
项目:数仓采集(三)(业务数据采集模块Mysql+sqoop+hive 总结)
文章目录MysqlMySQL安装安装包准备安装MySQL配置MySQL业务数据生成连接MySQL生成业务数据sqoopsqoop使用场景Sqoop安装Mysql-hdfs 传输应用同步策略(mysql—数据仓库 导数据)全量同步策略增量同步策略新增及变化策略特殊策略业务数据导入HDFS分析表同步策略脚本编写项目经验HiveHive安装部署Hive元数据配置到MySQL启动Hive初始化元数据库启动hive客户端MysqlMySQL安装安装包准备卸载自带的Mysql-libsrpm -qa | g原创 2020-05-15 21:10:42 · 1888 阅读 · 0 评论 -
项目:数据采集(二) 表关系
文章目录电商业务简介电商业务流程电商常识(SKU、SPU)电商业务表结构订单表(order_info)订单详情表(order_detail)SKU商品表(sku_info)用户表(user_info)商品一级分类表 base_category1商品二级分类表 base_category2商品三级分类表 base_category3支付流水表 payment_info省份表 base_province地区表 base_region品牌表 base_trademark订单状态表 order_status_log原创 2020-05-15 20:25:26 · 2084 阅读 · 0 评论