一、 需求分析
案例名称
XX 网/XX app 点击流日志数据挖掘系统
网站分析的主要手段是分析网站的点击流数据。
XX 网/XX app 点击流日志数据挖掘系统
网站分析的主要手段是分析网站的点击流数据。
(1)点击流的概念
点击流( Click Stream)是指用户在网站上持续访问的轨迹。 这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据( Click Stream Data),它代表了用户浏览网站的整个流程。
总结:点击流其实就是用户日常浏览网站时产生的日志信息。
(2)日志规模分析
一般中型的网站(10W 以上的 PV,即页面浏览量),每天会产生 1G 以上 Web 日志文件。大型或超大型的网站,可能每小时就会产生 10G 的数据量。 具体来说,比如某电子商务网站,在线团购业务。每日 PV 数 100w,独立 IP 数 5w。用户通常在工作日上午 10:00-12:00 和下午 15:00-18:00 访问量最大。日间主要是通 过 PC 端浏览器访问,休息日及夜间通过移动设备访问较多。网站搜索浏量占整个网站的 80%,PC 用户不足 1% 的用户会消费,移动用户有 5% 会消费。
对于日志的这种规模的数据,用 Hadoop 进行日志分析,是最适合不过的了。