设计点击流数据仓库时遇到的挑战

最新推荐文章于 2022-12-17 15:16:56 发布

Cormier-an

最新推荐文章于 2022-12-17 15:16:56 发布

阅读量1.2k

点赞数

分类专栏：点击流数据仓库数据仓库建模项目总结文章标签： BI 数据仓库设计 cookie 缓存

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cormier_an/article/details/11313955

版权

数据仓库建模同时被 3 个专栏收录

19 篇文章 3 订阅

订阅专栏

点击流数据仓库

13 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

目前在做一个有关网站点击流信息方面的数据仓库（集市）项目，一开始发现存在着很多难以完美解决的挑战

1.丢失的来源点击流信息库当中会比较在意会话的来源，来源网页，来源搜索相关的关键字、搜索引擎等相关信息

但是不管如何，总是会存在着会话来源丢失的问题，这可能跟访问者所使用的浏览器设置，以及其他一些因素有关

。这部分丢失的数据会占到整个数据的10-20%左右，如何找回这部分丢失的信息，是一个很头疼的问题。

2. 访问者信息缺失点击流信息库当中所采集到的访问者信息，缺乏一定的真实性，根据IP来判定用户也存在着一定

问题，动态IP，以及同一家庭成员使用同一IP访问等等问题，部分用户也不愿意将其真实身份信息透露出来，总希望是

通过匿名方式来访问，也不会确定访问者总是用一台计算机来进行访问。

3.如何去识别一条会话有时候访问者连续访问几个页面会被统计称一次会话，而这个会话的识别同样会存在一定的问题

含有会话的点击可以通过相邻时间比较接近的日志条目进行合并，不过这需要在处理日志时有比较完备的算法，最有力的解决

办法是在用户PC上设置永久的不被删除的 cookie，不过这显然是不可能的，用户有可能会浏览器设置删除cookie或者手动去删除。

4. 浏览器缓存绝大多数浏览器在 PC 文件系统的本地对象缓存中，存储诸如 HTML 页面与图像之类的最近检索对象的拷贝。

如果访问者返回到已经处于他或者她的本地浏览器缓存中的一个页面(例如，通过点击"后退" 按钮)，那么这个事件将发送给服务器，

并且该事件将不被记录。这意味着，永远不能确定拥有访问者动作的完整映射。正如针对代理服务器所做的一样，可以通过包括合

适的"没有缓存"HTML标记，试图强迫浏览器总是从服务器而不是从缓存中获取对象。在访问者打开同一站点多个浏览器窗口时，可能

引入一个类似的不确定因素。虽然访问者可能在他或者她的 PC 屏幕上拥有站点不同页面的多个视图，但对于 Web 服务器来说，却没

有任何办法知道这一点。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。