关于网友关注网站内容的关联度分析方面的思考

最新推荐文章于 2024-09-20 11:38:47 发布

bayaci

最新推荐文章于 2024-09-20 11:38:47 发布

阅读量891

点赞数

文章标签：数据挖掘 sql server javascript 算法测试数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bayaci/article/details/1771911

版权

最近关于数据挖掘方面的操作过程当中，碰到了如标题所说的那样寻求用户的关注情况数据挖掘分析。

首先我把简单的图片放上来：

这样的数据挖掘模型建立的目标是要对公司商务人员给一个很好数据挖掘决策支持，数据来源是网络访问用产生的游客朋友们的历史记录。

说到数据挖掘，肯定会是海量数据了。对海量数据的数据挖掘能力我通过sql server 2005 做了一些测试，不如我想象的那么好。

不管怎样，我要对这个模型的建立要有验证过程。我用某网站的按天留下来的用户访问日志上（大概一天有上百万条记录），建立一个如上图所示完整流程。

[1]游客：网站上访问的用户，给他们一个唯一的cookie id标示；

[2] 用户访问Weblog日志记录：通用的方式，使用javascript嵌套。能和其他系统独立，又能独立出挖掘系统的夸网站采集过程；

[3] 获取url对应的主要关键词：对网页的关键词提取方式有很多种算法，我在测试的时候，使用了一个特殊化处理方式，简化的算法，提高准确度。

[4] 获取用户一段时间内关注的关键词：从[1]、[2]、[3]关联上能够得到每一个cookie id 关注的关键词排序（kw1(29次关注) 、kw2（23次）、kw3（10次）、。。。kwn）。

表格形式：

userKeyword( id ,userid, keyword ,accesscount)(嵌套表)

当然，要有一个用户在一段时间内关注的用户记录表

userlog(id ,cookieid ,accesstime )(主表)

[5] 清理数据：对于当前情况来看，用户这段时间很好浏览，或者少于4次（自控控制这个参数），视为挖掘模型中的无效数据，清理相关数据。用户浏览太多，或者大于100（自行定义），视为一端时间异常情况，抛出清理相关数据。没有cookieid的无法做关联用户操作，清理这些相关数据。这就是一项很有意义，且不可获取的洗礼工作了。

[6] 进入关联度分析模型：关联度分析模型在数据挖掘当中基本模型，很好建立。我用SQL Server Business Intelligence Development Studio执行这个操作，生成的cube。

[7] 关联分析结果数据导入到关系型数据库：从[6] cube 中，通过mdx query做了循环访问，并把数据填写到关系型数据表格当中。

[8] 查看用户关注的关键词关联度数据：对于已经存在关系表格数据，查询几乎是每一个程序擅长的事情了。

通过上面的流程，做一个比较简单的用户访问次数上关注的关键词进行了分析挖掘，得到用户关注关键词之间的关联度情况数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。