大数据项目
文章平均质量分 61
项目实战笔记
一把秀儿
这个作者很懒,什么都没留下…
展开
-
大数据项目3
GMV 今天提交订单的金额总和,不管是否支付 全站PV 页面浏览量大砍一次就是一个pv再刷新一次又是一个pv 全站UV 去重的访客总和 set mapreduce.framework.name=local;本地 set mapreduce.framework.name=yarn; yarn set hive.vectorized.execution.enabled=true ; //开启 s原创 2021-01-20 20:02:00 · 408 阅读 · 0 评论 -
大数据项目2
linux操作系统基本操作补充 ps -ef 查看系统中所有进程 ps -ef |grep flume 查看单个进程的详细信息(如果把flume换成yarn就是看yarn的详细信息) ps -ef | grep yarn | wc -l 查看有多少条数据返回的是一个数字 yum install mailx -y 在linux操作系统装邮件客户端 which java 查看java路径(如果把Java换成hadoop那就是查看hadoo原创 2021-01-20 20:02:19 · 208 阅读 · 0 评论 -
大数据项目1
埋点日志采集 埋点在本项目中有三大类 App端行为日志 PC web端行为日志 微信小程序端行为日志 需求 日志生成在N台服务器中,现在需要使用flume采集到HDFS 3类日志采集后要分别存储到不同的hdfs路径 日志中的手机号,账号需要脱敏处理(加密) 不同日期的数据要写到不同的文件夹,且分配应以事件时间为依据 因为日志服务器所在子网跟HDFS集群不在同一个网段,需要中转传输 上游 a1.sources = r1 a1.channels = c1 a1.sinks = k1 k2 a1.sou原创 2021-01-20 20:02:38 · 269 阅读 · 0 评论 -
kafka快速入门
基本操作 list存在的topic bin/kafka-topics.sh --list --zookeeper linux01:2181就是看里面的库 ---------------------------------------------------------------------------------- 创建topic bin/kafka-topics.sh --create --topic doitedu19 --partitions 2 --replication-factor .原创 2021-01-20 20:03:01 · 210 阅读 · 0 评论 -
flume数据采集工具
业务系统就是客户端加上后台的服务 Source,channel,Event flime运行起来的进程叫agentflume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道每一个agent都有3个组件Source,channel,sink Source就相当于read(读数据) Channel就相当于缓存数据(为了解耦合) Sink就相当于write(写数据) Event event是数据 在channel中的封装形式 因此,Source组件在获取到原始数据后,需要封装成ev原创 2021-01-10 20:40:12 · 413 阅读 · 0 评论