1、解决统计差别问题
zongheng统计的访问uv和百度统计相差较大
经过逐项对比数据,查找发现是因为直接访问的uv差距
有部分用户禁用的cookie,导致无id信息,没有列入统计
结果是 对该用户的ip地址进行记录,然后
通过对总量的 uv/ip 的出比值,再进行相乘
或者是总量pv/uv得出比值,再进行计算无cookie的pv 和uv
2、百度统计的总uv=直接访问+搜索+渠道 一个用户只会统计一次,有渠道优先级
对于多方式的用户难以统计完全数目
各个渠道单独统计。
计算出来纯直接访问粘性用户(一天之内未经过任何渠道进入)
计算出来直接访问用户(可以有其他渠道的链接)
3、百度统计的中,区分搜索和外部链接是通过关键词来通缉的,移动端阿拉丁跳转中间页不含搜索词,被归类为外部链接
4、发现网站统计的入口页uv数小于网站整体的uv数,查找原因。
select urlfields['pf'] pf,
count(distinct baiduid) u1,
count(distinct
case when (parse_url(page_refer, 'HOST') not rlike '\\.zongheng\\.' and
parse_url(page_refer, 'HOST') not rlike '\\^zongheng\\.'and
parse_url(page_refer, 'HOST') not rlike '\\.mmzh\\.') then baiduid end ) u2
from zongheng_access
where dt=20141209 and
urlfields['pf'] in(1,2,3)
count(distinct baiduid) u1,
count(distinct
case when (parse_url(page_refer, 'HOST') not rlike '\\.zongheng\\.' and
parse_url(page_refer, 'HOST') not rlike '\\^zongheng\\.'and
parse_url(page_refer, 'HOST') not rlike '\\.mmzh\\.') then baiduid end ) u2
from zongheng_access
where dt=20141209 and
urlfields['pf'] in(1,2,3)
group by urlfields['pf']
5 浏览与转化,解决用户的路径问题,类似于谷歌的wordvec,3重路径 p(1,2,3)=p(1)*p(2|1)*p(3|1-2) 这就是出现用户按照1,2,3来访问网站的概率
p(2|1)=p(1,2)/p(1) 计算用户在先访问1的页面下访问页面2的概率
p为用户转为阅读页的情况,p1 为用户经历p1页最后转为阅读页的情况, 最后可以发现用户经历了哪些页面容易转入哪些不会转入阅读页。
通过对书籍和渠道的统计,可以找出用户那些章节是重点收入章节,渠道从哪个入口介入更能创造价值