目前在做一个有关网站点击流信息方面的数据仓库(集市)项目,一开始发现存在着很多难以完美解决的挑战
1.丢失的来源 点击流信息库当中会比较在意会话的来源,来源网页,来源搜索相关的关键字、搜索引擎等相关信息
但是不管如何,总是会存在着会话来源丢失的问题,这可能跟访问者所使用的浏览器设置,以及其他一些因素有关
。这部分丢失的数据会占到整个数据的10-20%左右,如何找回这部分丢失的信息,是一个很头疼的问题。
2. 访问者信息缺失 点击流信息库当中所采集到的访问者信息,缺乏一定的真实性,根据IP来判定用户也存在着一定
问题,动态IP,以及同一家庭成员使用同一IP访问等等问题, 部分用户也不愿意将其真实身份信息透露出来,总希望是
通过匿名方式来访问,也不会确定访问者总是用一台计算机来进行访问。
3.如何去识别一条会话 有时候访问者连续访问几个页面会被统计称一次会话, 而这个会话的识别同样会存在一定的问题
含有会话的点击可以通过相邻时间比较接近的日志条目进行合并,不过这需要在处理日志时有比较完备的算法, 最有力的解决
办法是在用户PC上设置永久的不被删除的 cookie,不过这显然是不可能的,用户有可能会浏览器设置删除cookie或者手动去删除。
4. 浏览器缓存 绝大多数浏览器在 PC 文件系统的本地对象缓存中,存 储诸如 HTML 页面与图像之类的最近检索对象的拷贝。
如果访问者返回到已经处于他或者她的本地浏览器缓存中的一个页面(例如,通过点击"后退" 按钮),那么这个事件将发送给服务器,
并且该事件将不被记录。这意味着, 永远不能确定拥有访问者动作的完整映射。正如针对代理服务器所做的一样,可以通过包括合
适的"没有缓存"HTML标记,试图强迫浏览器总是从服务器而不是从缓存中获取对象。在访问者打开同一站点多个浏览器窗口时,可能
引入一个类似的不确定 因素。虽然访问者可能在他或者她的 PC 屏幕上拥有站点不同页面的多个视 图,但对于 Web 服务器来说,却没
有任何办法知道这一点。