数据挖掘算法
文章平均质量分 65
benpaobagzb
做人要谦虚
展开
-
基于节目标签的聚类(一)
基于节目标签的聚类的意义:1、 通过给节目打上的标签,用户在浏览或观看的过程中会带着这种标签;2、 通过用户的标签和节目的标签可以实现用户聚类和节目聚类(相同的节目和用户可以归为一类);3、 通过上面的聚类以及对节目的打分可以实现对用户的个性化推荐; 节目的标签聚类其实就是简单的文本聚类;文本聚类需要解决下面的几个问题:1、 节目标签的选取;原创 2015-08-28 21:26:23 · 1488 阅读 · 0 评论 -
线性回归和逻辑回归
只看公式太痛苦了,分开说一下就好。Logistic Regression 有三个主要组成部分:回归、线性回归、Logsitic方程。 1)回归 Logistic regression是线性回归的一种,线性回归是一种回归。那么回归是虾米呢? 回归其实就是对已知公式的未知参数进行估计。大家可以简单的理解为,在给定训练样本点和已知的公式后,对于一个或多个未知参数,机器会原创 2015-08-28 21:49:51 · 569 阅读 · 0 评论 -
数据分析的方法有哪些
1、数据分析遵循的原则:① 数据分析为了验证假设的问题,提供必要的数据验证;② 数据分析为了挖掘更多的问题,并找到原因;③ 不能为了做数据分析而坐数据分析。2、步骤:① 调查研究:收集、分析、挖掘数据② 图表分析:分析、挖掘的结果做成图表3、常用方法:利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖原创 2015-08-28 21:56:32 · 835 阅读 · 1 评论 -
网站分析角度及指标
网站分析的角度、指标:1、传统指标(通过不同角度): pv、uv、uip、访问深度、停留时间等等(了解基本的网站情况----访问高峰等) 查看某个专题或频道的指标2、访问区域: 可以细分为国内、国外等等3、网站的流量区分: 站内本身流量、站内频道流量、站外流量等 ① 了解流量构成 ② 知道流量从哪里来,需要在哪里做推广 ③ 站外流原创 2015-08-28 21:57:11 · 710 阅读 · 0 评论 -
电子商务网站流量分析的三项指标分拆
电子商务网站流量分析的三项指标分拆 电子商务网站的流量分析与其他网站大体相同,区别主要在于效率转换以及用户特征,这对于电子商务网站来说尤为重要,而流量的总数相对并不十分特别要紧,因 为只要把转化率提升了,获得流量的方法还是很多的。 一般来说,数据分析包括:流量来源分析、流量效率分析、站内数据流分析和用户特征分析四个部分。 我们先来探讨流量来源分析。电子商务就是贩卖流量的生意,原创 2015-08-28 21:57:59 · 1357 阅读 · 0 评论 -
用户运营分析
1、开源分析 分析用户来源渠道,分析各渠道效果 当前使用用户、新用户、活跃用户、流失用户、回访用户 渠道名称UVPV注册生命周期、活跃度、注册转化率金卡搜索引擎 之前访问 推广合原创 2015-08-28 22:00:59 · 941 阅读 · 0 评论 -
单表60亿记录等大数据场景的MySQL优化和运维之道
前言本文干货,浅显易懂,更多交流可以加入:QQ群288567073 (拒绝广告,每日分享干货电子书+视频)微信订阅号见文末二维码荔枝FM手机客户端搜索“挨踢脱口秀”订阅即可视频汇总首页:http://edu.51cto.com/lecturer/index/user_id-4626073.html=========================转载 2015-08-28 22:15:04 · 1168 阅读 · 0 评论 -
推荐算法--slope one
基本概念 Slope One的基本概念很简单, 例子1, 用户X, Y和A都对Item1打了分. 同时用户X,Y还对Item2打了分, 用户A对Item2可能会打多少分呢?UserRating to Item 1Rating to Item 2X53Y4原创 2015-08-28 21:25:14 · 462 阅读 · 0 评论 -
贝叶斯算法 mapreduce实现
/** * 找到抽样用户的特征,得到每个特征的概率 * 输入:属性1 属性2 属性3 属性4 类别 * 命令:hadoop jar recommend_cf.jar com.funshion.machine.bayes.Bayes2 /dw/logs/user/xincl/bayes.txt /dw/logs/recommend/result/machine/Baye原创 2015-08-28 21:32:17 · 991 阅读 · 1 评论 -
数据分析概念
http://baike.baidu.com/view/362239.htm转载 2015-08-28 21:55:11 · 492 阅读 · 0 评论 -
定义数据挖掘任务
一个数据挖掘任务可以通过数据挖掘查询,它是数据挖掘系统的输入。数据挖掘查询用一下原语定义:①任务相关数据:我想挖据什么数据集?②我想挖掘什么知识?③什么背景知识这里可能有用?④哪些度量可以用来评估模式的兴趣度?⑤我希望如何提供发现的模式?一、任务相关的数据 这个原语说明了待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。在关系数据库中,任务相关的数据可以通原创 2015-08-28 21:48:02 · 1257 阅读 · 0 评论 -
网站分析思维导图
最近整理了下网站分析的思路,形成下面的文档。原创 2015-08-28 21:59:44 · 2284 阅读 · 1 评论 -
互联网行业在挖些什么?
进入21世纪,互联网逐步成为人们生活中不可缺少的元素。北京BDA市场研究公司2008年3月份的研究报告称,根据中国互联网网络信息中心的数据预计,按用户数量计算,中国目前已经超过美国而成为全球最大的互联网市场。中国互联网网络信息中心的资料显示,截止到2007年年底,中国互联网用户数量达到了2.1亿。而根据Nielsen/NetRatings的资料显示,截止到2007年年底,美国的互联网用户数量为2.原创 2015-08-28 21:42:47 · 342 阅读 · 0 评论 -
流失分析中需要注意的问题
与其它行业客户流失分析相比,电信行业以其庞大的客户群而特征鲜明,因此在一些问题的处理上也应当多加注意。 (1)过度抽样。从实际情况上看,国内电信企业每月的客户流失率一般在1%~3%左右,如果直接采用某种模型(比如决策树、人工神经网络等)可能会因为数据概率太小而导致模型的失效,因此我们需要加大流失客户在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。 (2)原创 2015-08-28 21:46:14 · 660 阅读 · 0 评论 -
进店率、提袋率、客单价
进店率、提袋率、客单价是衡量百货店销售业绩的重要指标。要取得好的业绩,在达成销售的过程中,精准地分析门店目标消费人群的购物习惯是其中重要的一环。 在百货店里,企划部如何通过识别不同顾客来设计服务,实现店铺业绩倍增?导购员如何才能铸就“见人说人话,见鬼说鬼话”的本领?可以说,在不同的岗位工作 虽扮演着不同的角色,但是所有的行动都指向促成销售,所有的行动又都是基于对顾客购物心理的了解。本文主要针对百货原创 2015-08-28 21:59:19 · 4935 阅读 · 0 评论 -
什么是数据挖掘
关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:“简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技原创 2015-08-28 21:48:44 · 2581 阅读 · 0 评论 -
数据挖掘-客户倾向分析
为了避免由客户流失造成的损失,您必须找出那些有流失危险和最有价值的客户,并相应开展保留和获取客户的活动。觉得现在的工作中我们可以利用现有的数据,并对这些数据进行分析来判断哪些客户有流失危险,哪些最有价值。Clementine可以研究客户流失中客户特征分析、流失预测、流失后果评估等问题。研究客户流失的时候一般会考虑到以下的一些问题:1. 现有的客户哪些客户即将流失?2. 现有原创 2015-08-28 21:47:14 · 2039 阅读 · 0 评论 -
基于节目标签的聚类(二)
节目及标签选择:下面表格中是随机从节目库中选取的节目(只选择了电视剧、电影),标签主要选择了标签的类型,由于数据量比较小演员和导演没有选择;事先给定每个标签的频度值(TF),第一列标签为2,其他的标签为1;节目标签轩辕剑电视剧剧情爱情魔幻古装女编辑原创 2015-08-28 21:27:12 · 1437 阅读 · 0 评论 -
用户标签推荐初探
给用推荐或者分析用户兴趣,可以使用用户行为也可以利用我们网站上节目的标签进行,一个个标签可以看做对一个节目的具体描述; 可以用户通过访问不同的节目用来给用户打上兴趣标签,从而可以实现用户的标签聚类、节目推荐、标签推荐; 下面的数据以8月6日节目表和cv为例 第一步:从节目表本身观察标签情况: 总节目数:72,原创 2015-08-28 21:27:47 · 741 阅读 · 0 评论 -
数据挖掘--kmeans聚类算法mapreduce实现
通过聚类算法可以把相似度高的一类对象归为一类,从而实现“物以类聚”;我们可以用来对用户进行聚类分群、节目分组等实际应用。附件是核心MR的实现和实验数据。基本简介 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个原创 2015-08-28 21:28:41 · 2080 阅读 · 0 评论 -
数据挖掘--kmeans聚类算法mapreduce实现 代码
==================cluster.txt===========================A 2 2B 2 4C 4 2D 4 4E 6 6F 6 8G 8 6H 8 8==================cluster.center.conf=原创 2015-08-28 21:29:16 · 997 阅读 · 0 评论 -
分类算法--贝叶斯分类法(Maprdecue实现)
贝叶斯是一个很有用的算法,可以用在【分词】、【拼写检查】、【分类】、【模式识别】等领域。 附件是基于贝叶斯的简单实现。如果需要有实际需要可以找我进行测试。 贝叶斯分类是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、原创 2015-08-28 21:30:09 · 938 阅读 · 0 评论 -
逻辑回归(LR)算法java实现
按照机器学习实战的python代码,用java重写LR的梯度上升算法:package com.log;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.InputStreamReader;import java.io.File;import java.util.Ar原创 2015-08-28 21:31:30 · 5806 阅读 · 2 评论 -
个性化推荐技术的十大挑战
个性化推荐经常被人误解为细分市场和精准营销这两个概念。虽然它们之间有一些联系,但实质上却相差甚远。本文不仅清楚地讲述了个性化推荐技术,更列出了其所面临的十大挑战。很多人都知道个性化推荐,却有不少认识上的误区。有的人认为个性化推荐就是细分市场和精准营销,但实际上细分市场和精准营销往往是把潜在的用户分成 很多群体,这与基于全体的统计相比固然有了长足的进步,但距离“为每一个用户量身定做的信息服务原创 2015-08-28 21:34:17 · 1043 阅读 · 0 评论 -
8成企业不满网络广告评估方法
2008年底,诸多研究机构发布的市场预测中,经济寒冬时期,企业营销预算纷纷削减,广告营销活动对效果的要求非常严苛;而网络媒体以其灵活、 精准、互动等特性,将赢得更多广告主的青睐;2009年广告营销市场赢家,将非网络媒体莫属,网络媒体将成为互联网经济寒冬的受益者……成为各企业主关注 的热点。 事实真的如此吗?答案是:不,没有那么简单。DCCI互联网数据中心日前披露的一项研究结果表明,网转载 2015-08-28 21:39:21 · 403 阅读 · 0 评论 -
衡量企业网络广告效果的九个指标
有人说过:“我的广告费中有一半是浪费掉的…….问题是我不知道浪费的是哪一半”。这种情况在传统广告中可能是普遍现象,因为传统的报纸,电视广告,效果确实比较难以统计。但网络广告不同,访问者的浏览行为可以被追踪统计,可就此分析出网络广告的效果。但网站流量统计报表里那么多参数和报表,到底应该看什么才能分析出广告的效果呢? 为了方便大家分析,下面从报表里挑出网络广告效果(这里其实更多是网页广原创 2015-08-28 21:40:11 · 12724 阅读 · 0 评论 -
互 联 网 数 据 挖 掘 综 述
摘要:互联网发展到今天已经成为了人们生活中不可缺少的一部分了,而互联网从某种意义上讲也可以看作是一个庞大的数据库,并且涉及到各个领域。那么在这个庞大的数据库中,数据挖掘技术有什么用武之地呢?本文通过对互联网上数据挖掘的简单综述,说明现在互联网上数据挖掘的一些趋势和相关技术,并且着重分析一下其中一种互联网上数据挖掘的应用方向相关的技术——Web使用记录的挖掘。 关键字:数据挖转载 2015-08-28 21:41:05 · 1184 阅读 · 0 评论 -
web数据挖掘
挑战在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?机原创 2015-08-28 21:41:46 · 706 阅读 · 0 评论 -
客户细分的7个诀窍
1、每个客户只能归入一个类别。否则,客户可能因此陷入多种相互矛盾的产品信息而无所适从。2、不要有渠道差异。客户从不同渠道获得的产品信息都应该是相同的。每个直接接触客户的员工都能够随时知道产品推荐信息并传递给客户。3、提供直接接触客户的员工有针对性的、可执行的对策。不要把仍需解释的信息提供给他们。应准确地告诉他们对客户来说哪种产品是最适合的。4、在客户细分之初,应给销售人员提原创 2015-08-28 21:43:22 · 1029 阅读 · 0 评论 -
数据挖掘的五个误区
许多成功的企业都发现了围绕着数据挖掘而产生的神话确实就是误解。这些企业没有成为这些误区的牺牲品,而是通过使用数据挖掘技术解决复杂的业务问题来增加利润,获取更大的竞争优势。 实际上正是复杂的数据挖掘技术使得乡村地区的Wal-Mart超市连锁店决定在秋季准备大量某种广告邮件 。虽然可笑,但Spamouflage-经过巧妙包装的广告邮件已经取得了极大的成功。不单单是一个可爱的想法,Spamoufl原创 2015-08-28 21:44:26 · 817 阅读 · 0 评论 -
商业银行建立客户流失预测模型的方法研究
[摘要] 客户流失是竞争日益激烈的市场中银行面临的一大难题。通过分析银行客户流失的原因,提出了建立客户流失预测模型的方法。利用模型,发现预测流失 群体,预测流失趋势,进而制定有效的控制策略,最大限度地降低客户流失率。为客户流失预测提供了一种新的研究思路和分析方法。 [关键词] 客户流失流失预测模型数据挖掘 随着我国加入WTO,国内银行正酝酿着有史以来最为深刻的变革,不仅面临着原创 2015-08-28 21:45:00 · 8996 阅读 · 0 评论 -
利用数据挖掘实现电信行业客户流失分析
随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速,国际化的市场环境要求国内的公众电信运营企业在经营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。同时随着国家改革的深化,国内电信业的市场环境已渐趋合理且竞争将日益加剧。国内、国际电信业的如此态势,对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识提出了严峻的挑战。企业的经营模式和服务体系正以客户的价原创 2015-08-28 21:45:38 · 5610 阅读 · 0 评论 -
RFM模型梳理
R——7天(R3),8~30天(R2),31天以上(R1),考察的是客户购买的沉默期;F——1次(F1),2~3次(F2),3次以上(F3),个人倾向于把3次作为客户是否发展为忠诚客户的一个参考标准;M——100(M1),101~1000(M2),1000(M3)以上,这个就需要根据商家的商品平均定价和平均客单价来做划分,其重点在于考察客户的购买能力。通过上面的原创 2015-08-28 22:00:28 · 2866 阅读 · 0 评论