互联网海量数据的用户行为分析的简单的介绍

1、用户行为分析的系统的功能需求




2、系统的总体架构


3.1、搜索引擎日志的产生


    用户与服务器交互的这一系列过程都会被记录在搜索引擎的服务器上,其记录的内容会包括用户的地址、用户访问搜索引擎的时间、来源网站、搜索类别、查询的关键词、用户点击的以及用户在搜索引擎中的停留时间等。


3.2 搜索引擎日志的类型

    搜索引擎(是一种为互联网用户提供检索服务的信息系统,它的日志主要有两种,分别是搜索引擎的系统日志和互联网用户的搜索日志。其中,搜索引擎的系统日志主要记录了系统的软硬件的运行情况、网页数据的解析状态以及用户査询的响应时间等;互联网用户的搜索日志包括访问者的、访问者所使用的客户端的用户代理(信息、访问的时间、访问的来源地址以及目标地址等。


3.3搜索引擎日志的采集

    典型的日志采集系统需具备三个基本组件,分别为封装数据源,将数据源中的数据发送给,接收多个的数据,并进行汇总后导入后端的中),中央存储系统,应该具有可展性和可靠性,应该支持当前非常流行的。当今开源的日志收集系统主要有FaceBook的Scribe,LinkedIn的Kafka,Clouderea的Flume和的等。下面重点介绍Hadoop系列产品Chukwa。Chukwa的日志采集过程如图所示。



4、日志的存储策略

4.1 可以将日志存储在HDFS中,或者分布式数据库中,为日志的分析做准备。

在这里主要使用HDFS进行对log日志的存储。下面主要介绍一个HDFS的API如何对文件进行处理。






5、日志分析

    使用Map——Reduce程序进行对日志的离线分析。

从用户查询日志中可以得到很多与用户有关的有价值的信息。通过分析日志可以得到用户查询关键字排名、用户点击排名、主机名排行、用户搜索记录、时间段统计、日搜索统计等一些用户行为特征,而釆用计算模型来分析这些用户行为特征更为高效。

     一般情况下,一段时间内用户经常搜索的关键字和用户频繁点击的代表着近期的一些热门话题。本文将排名靠前的搜索关键字和排名靠前的中的文本内容都进行分词后作为语料库,利用word2vec这个工具对关键词进行分析,其结果可以很好的反应当前的一些“热词”,从而为用户搜索时提供提示。

6、数据可视化工具

目前有很多的数据可视化工具。以及比较专业的可视化工具R、Weka、Gephi



  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值