离线处理网站的PV,UV方案

最新推荐文章于 2022-07-11 20:57:08 发布

小东升职记

最新推荐文章于 2022-07-11 20:57:08 发布

阅读量417

点赞数 3

分类专栏：新手必看编程规则 kafka Redis java 文章标签：离线处理网站的PV UV方案

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38704184/article/details/86530941

版权

新手必看同时被 3 个专栏收录

155 篇文章 1 订阅

订阅专栏

110 篇文章 0 订阅

订阅专栏

95 篇文章 0 订阅

订阅专栏

流程：

导入数据hdfs（flume-->hdfs）
建立hive表
把hdfs上的数据导入到hive表里面
数据清洗-->（先有一个数据清洗表）
数据分析，数据统计-->存放一张表里面
把hive表的数据导出到，mysql中
把mysql里面的㐇给查出来，展示到页面

何为PV？

PV（page view）访问量，即页面浏览量或点力量，衡量网站用户访问的网页数量；

在一定统计周期内用户没打开或刷新一个页面就记录一次，多次打开或刷新同一页面浏览量累计。

何为UV（Unique Visitor）？

UV（Unique Visitor）独立访客，统计1天内访问某站点的用户数（以cookie为依据）；

访问网站的一台电脑客户端为一个访客。

可以理解为访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访的cookie实现的。

如果更换了ip后但不清除cookies，在访问相同的网站，还网站的统计中UV数是不变的。

如果用户不保存cookies访问、清除了cookies或者更换设备访问，计数会加1.00:00-24:00内相同的客户端多次访问只记为1个访客

何为IP？

IP（Internet protocol）独立ip数，是指1天内多少个独立的IP浏览了页面，即统计不同的IP浏览用户数量。

同一ip不管访问了几个页面，独立IP数均为1；

不同的IP浏览页面，计数会加1.

IP是基于用户广域网IP地址来区分不同的访问者的，所以，多个用户（多个局域网IP）在同一个路由器（同一个广域网IP）

内上网，可能被记录为一个独立IP访问者。如果用户不断更换IP，则有可能被多次记录。

1.flume整合hdfs

将hadoop的core-site.xml,hdfs-site.xml复制到flume/conf下

将hadoop的jar包拷贝到flume/lib下

hadoop-common-*.jar
hadoop-auth-*.jar
commons-configuration-*.jar

2.配置flume的conf文件（flume-->hdfs）

这里是flume的官网提供的下沉到hdfs的采集方案：http://flume.apache.org/FlumeUserGuide.html#hdfs-sink

3.测试

向flume的监听目录下添加文件，观察hdfs

4.启动hive 创建数据库，在数据里面新建表

5.向数据库里面导入数据

6.数据分析

7.数据清洗

8.统计PV,UV把结果再放到一张结果表里面

9.把hive里面的数据导入到数据库里面（sqoop）（把mysql的驱动添加到sqoop\lib下）（保证mysql可以远程访问）

在 mysql里面创建数据库，数据库里面创建一张表，这个表的字段以及数据类型与hive里面的意义对应

10.终于到我们的java部分了

controller
pojo
dao
service
mapper
jps/html

里面所有涉及的方面，全部可以在我的博客里面找到相关的实例代码，理论理解。

小东升职记

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。