![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
电商数仓
文章平均质量分 90
Redamancy_06
这个作者很懒,什么都没留下…
展开
-
DataX使用、同步HDFS数据到MySQL案例、DataX优化
当提升DataX Job内Channel并发数时,内存的占用会显著增加,因为DataX作为数据交换通道,在内存中会缓存较多的数据。例如Channel中会有一个Buffer,作为临时的数据交换的缓冲区,而在部分Reader和Writer的中,也会存在一些Buffer,为了防止OOM等错误,需调大JVM的堆内存。insert into,如果没有主键,插入两条相同的数据则会保存两条,如果没有主键,插入两条相同的数据则会报错。没有万能的,看具体业务场景,mysql数据为主就用第三个,采集数据为主就用第二个。原创 2022-12-10 08:00:00 · 1670 阅读 · 4 评论 -
DataX使用、同步MySQL数据到HDFS案例
emps;DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。原创 2022-12-02 22:38:42 · 3410 阅读 · 2 评论 -
大数据项目之电商数仓DataX、DataX简介、DataX支持的数据源、DataX架构原理、DataX部署
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX设计理念、DataX框架设计、DataX运行流程、DataX调度决策思路、DataX与Sqoop对比、下载DataX安装包并上传到hadoop102的/opt/software、解压datax.tar.gz到/opt/module、自检,执行如下命令原创 2022-11-26 09:59:16 · 2067 阅读 · 2 评论 -
解决cannot import name ‘soft_unicode‘ from ‘markupsafe‘和‘EntryPoints‘ object has no attriibute ‘get‘
如果将markupsafe改为2.0.1之后还是会报如下错误。将markupsafe依赖的版本回退到 2.0.1。ImportError: cannot import name 'soft_unicode' from 'markupsafe' (/opt/module/miniconda3/envs/superset/lib/python3.7/site-packages/markupsafe/__init__.py)AttributeError: 'EntryPoints' object has no a原创 2022-11-17 15:11:11 · 2600 阅读 · 7 评论 -
大数据项目之电商数仓、实时数仓同步数据、离线数仓同步数据、用户行为数据同步、日志消费Flume配置实操、日志消费Flume测试、日志消费Flume启停脚本
按照规划,该Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。此处选择KafkaSource、FileChannel、HDFSSink。原创 2022-11-23 15:40:17 · 1908 阅读 · 5 评论 -
大数据项目之电商数仓、Maxwell使用、 Maxwell启停脚本、增量数据同步、历史数据全量同步、采集通道Maxwell配置、通道测试
但有时只有增量数据是不够的,我们可能需要使用到MySQL数据库中从历史至今的一个完整的数据集。这就需要我们在进行增量同步之前,先进行一次历史数据的全量同步。这样就能保证得到一个完整的数据集。1)第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据,是bootstrap开始和结束的标志,不包含数据,中间的type为bootstrap-insert的数据才包含数据。2)一次bootstrap输出的所有记录的ts都相同,为bootstrap开始的时间。原创 2022-11-10 11:18:21 · 1796 阅读 · 21 评论 -
大数据项目之电商数仓、业务数据通道、Maxwell简介、Maxwell原理、MySQL主从复制读写分离、Maxwell部署
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。MySQL二进制日志、MySQL主从复制、读写分离、做数据库的热备:主数据库服务器故障后,可切换到从数据库继续工作。主从复制的工作原理如下、主从复制的应用场景如下原创 2022-11-05 08:00:00 · 1092 阅读 · 22 评论 -
大数据项目之电商数仓、业务数据介绍、业务数据模拟、生成业务数据、业务数据建模
注意:完成后,要记得右键,刷新一下对象浏览器,就可以看见数据库中的表了。大数据项目之电商数仓、业务数据介绍、业务数据模拟、生成业务数据、业务数据建模、建表语句、按住shift键,用鼠标点击表,进行多选,可实现批量移动、按住ctrl键,用鼠标圈选表,也可进行多选,实现批量移动、并在该目录下执行,如下命令,生成2020-06-14日期数据、根据需求修改application.properties相关配置、在hadoop102的/opt/module/目录下创建db_log文件夹、建立表关系、 第一步:点击选中主原创 2022-11-04 08:00:00 · 1196 阅读 · 8 评论 -
大数据项目之电商数仓、业务数据介绍、MySQL安装、更改MySQL密码策略
注意:如果报如下错误,这是由于yum安装了旧版本的GPG keys所造成,从rpm版本4.1后,在安装或升级软件包时会自动检查软件包的签名。配置只要是root用户 + 密码,在任何主机上都能登录MySQL数据库。设置复杂密码(由于MySQL密码策略,此密码必须足够复杂)、更改MySQL密码策略、设置简单好记的密码、 修改user表,把Host表内容修改为%、安装MySQL依赖、卸载自带的Mysql-libs(如果之前安装过MySQL,要全都卸载掉)、将安装包和JDBC驱动上传到/opt/software,共原创 2022-11-03 08:00:00 · 518 阅读 · 12 评论 -
大数据项目之电商数仓、业务数据介绍、电商系统表结构
以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例,实际项目中,业务数据库中表格远远不止这些。原创 2022-11-02 08:00:00 · 2088 阅读 · 4 评论 -
大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统
电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。原创 2022-11-01 08:00:00 · 792 阅读 · 8 评论 -
大数据项目之电商数仓、日志采集Flume测试、日志采集Flume启停脚本
将进程号为67857的kill了,但是我们还有一个问题,这样写如果有多个Application的进程,多个Flume的job,也都会同时一起杀死,我们不想这样做,因此可以进行改进,可以根据文件名,一台机器上一个Flume的配置只会启动一次,不会启动多次。但是要是往脚本里面写的话得在awk '{print $2}‘里面多加一个反斜杠,因为最外层有$1了,如果在写$2会和外层冲突,所以加一个’'比较好awk ‘{print $2}’这样就可以查出来想要的进程了,然后把进程号给提取出来,这里使用awk,原创 2022-10-31 08:00:00 · 584 阅读 · 4 评论 -
大数据项目之电商数仓、日志采集Flume配置概述、日志采集Flume配置实操
按照规划,需要采集的用户行为日志文件分布在hadoop102,hadoop103两台日志服务器,故需要在hadoop102,hadoop103两台节点配置日志采集Flume。日志采集Flume需要采集日志文件内容,并对日志格式(JSON)进行校验,然后将校验通过的日志发送到Kafka。此处可选择TaildirSource和KafkaChannel,并配置日志校验拦截器。原创 2022-10-30 08:00:00 · 1311 阅读 · 17 评论 -
大数据项目之电商数仓、日志采集Flume、source、channel、 sink、Kafka的三个架构
由taildir source读取数据,发送给kafka channel,因为是kafka channel,因此将数据存储到kafka的topic里面,hdfs sink从kafka channel里面读数据,发现是kafka channel,则从kafka当中要读的数据读出来,发送给hdfs sink。hdfs sink从kafka channel里面读数据,发现是kafka channel,则从kafka当中要读的数据读出来,发送给hdfs sink。kafka source :下面有详细的说明。原创 2022-10-29 08:00:00 · 1842 阅读 · 22 评论 -
大数据项目之电商数仓、Flume安装(完整版)
(1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下。把这行注释的代码取消注释,memory Channel消耗的内存比较大,因此需要调大内存,将-Xmx参数调大。(2)解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下。(4)将lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop 3.1.3。(3)修改apache-flume-1.9.0-bin的名称为flume-1.9.0。原创 2022-10-28 08:00:00 · 340 阅读 · 3 评论 -
大数据项目之电商数仓、Zookeeper安装(完整版)
集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。C是这个服务器Follower与集群中的Leader服务器交换信息的端口;A是一个数字,表示这个是第几号服务器;B是这个服务器的地址;原创 2022-10-26 08:00:00 · 1062 阅读 · 25 评论 -
大数据项目之电商数仓、Kafka安装(完整版)、Kafka命令行操作
注意:停止Kafka集群时,一定要等Kafka所有节点进程全部停止后再停止Zookeeper集群。因为Zookeeper集群当中记录着Kafka集群相关信息,Zookeeper集群一旦先停止,Kafka集群就没有办法再获取停止进程的信息,只能手动杀死Kafka进程了。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(2)把主题中所有的数据都读取出来(包括历史数据)–topic 定义topic名。原创 2022-10-27 08:00:00 · 677 阅读 · 11 评论 -
大数据项目之电商数仓、用户行为数据采集模块、集群所有进程查看脚本、Hadoop安装、数据通道、环境准备、Web端查看SecondaryNameNode、项目经验之集群数据均衡和Hadoop参数调优
HDFS参数调优hdfs-site.xml、YARN参数调优yarn-site.xml、磁盘间数据均衡其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。不要分发,要一个一个的进行配置,因为hadoop102是6G内存,103是4G,104是4G,分发的话会导致利用率不匹配。原创 2022-10-25 08:00:00 · 494 阅读 · 39 评论 -
大数据项目之电商数仓、用户行为日志、服务器和JDK准备、模拟数据
这里滚动的方式是以文件的形式进行滚动的,而这个文件滚动的日期是和服务器的时间是相关的,而模拟的数据是2020年的数据,所以这里的日期会不匹配,在生产情况下是没有问题的,因为当天的数据当天就处理了,所以日期基本上是没有问题的。②/dev/null代表Linux的空设备文件,所有往这个文件里面写入的内容都会丢失,俗称“黑洞”。标准输出1:输出到屏幕(即控制台) /proc/self/fd/1。错误输出2:输出到屏幕(即控制台) /proc/self/fd/2。可以根据需求生成对应日期的用户行为日志。原创 2022-10-24 08:00:00 · 1426 阅读 · 7 评论 -
大数据项目之电商数仓、用户行为日志
代码埋点(前端/后端)、可视化埋点、全埋点、页面浏览记录、动作记录、曝光记录、启动记录和错误记录、页面日志,启动日志、曝光记录,记录的是曝光行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及曝光对象信息等、动作记录,记录的是用户的业务操作行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息 及动作目标对象信息等、页面浏览记录,记录的是访客对页面的浏览行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息原创 2022-10-23 08:00:00 · 1026 阅读 · 5 评论