大数据
文章平均质量分 64
好多鱼哦
数据挖掘、机器学习
展开
-
大数据初探
一、什么是大数据5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。应用:发现隐藏事物、商品相似性推荐、数据可视化、精准营销、指导决策、图像识别、股票预测、音乐推荐、辅助医疗、票房预测、商品营销、兴趣发现、异常检测、智能消费、木马检测、最优化决策、数据分析、重复性检测、电子商务、家庭生活、游戏娱乐、原创 2016-05-18 19:00:19 · 1420 阅读 · 0 评论 -
大数据挖掘笔记2——PageRank
1.PageRankPageRank是一个函数,为Web中每个网页赋予一个实数值。PageRank值越高,越重要。Web转移矩阵:描述随机冲浪者下一步的访问行为。网页数目为n,则M为一个n*n的方阵。网页j有k条出链,则对链向网页i的元素值Mij=1/k。第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述,第j个分量代表原创 2016-08-21 15:53:04 · 1512 阅读 · 0 评论 -
各聚类算法比较
聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。1.基于划分:给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K特点:计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法:K-MEANS算法、K-MEDOIDS算法、CLARANS算法2.基于层次:对给定的数据集进行层次似的分解,直到某种条件满原创 2016-08-09 21:57:16 · 4050 阅读 · 0 评论 -
数据之美——读书笔记3
facebook数据收集和存储平台构建一个离线信息库,一方面用Python脚本把查询分发到facebook的MySQL服务器,另一方面用C++实时处理事件日志。通过ETL框架、数据仓库和内部控制台构建了一个简单的商业智能(BI)系统。商业智能系统仅仅收集和聚集数据是远远不够的,还需要利用数据传播进行推断的洞察力,有选择的将信息转移到需求上。ETL有规律的将已知数据源中的数据抽取原创 2016-07-29 21:12:02 · 611 阅读 · 0 评论 -
HDFS Shell 命令
我的Hadooop安装在ubuntu的/usr/local/hadoop目录下。HDFS提供了丰富的shell命令,打印查看hdfs的全部命令。打印查看hadoop的文件操作命令。hdfsadmin管理命令。文件管理命令fsck。原创 2016-06-20 17:19:02 · 325 阅读 · 0 评论 -
《大数据精准挖掘》电信行业应用--客户流失预测
一、背景介绍国内电信市场日趋饱和,企业竞争日趋激烈,获取新客户的成本远远高于留住现有客户的花费。发展一位新客户的成本是留住老客户的6倍;客户加入时间越长,价值越高。二、商业理解用户:业务分析员+决策人员客户流失可能性预测:对每一位客户流失倾向的大小进行预测。流失原因:主要流失原因的预测和分析。客户流失影响:预测、分析。客户保留措施:根据客户不同的特点,差异化挽留措施原创 2016-06-09 22:31:03 · 2453 阅读 · 0 评论 -
《大数据精准挖掘》保险电销应用—寻找目标客户
YBB保险电话销售公司已经做完了针对20万用户发放赠险产品的工作,想从接受赠险的客户中,找出会在将来购买付费型保险的客户,从而进行电话营销。为此,YYB公司从20万人中随机选取了5万人向其电话推销付费型保险,结果有200名客户购买了付费型保险。要想节约成本,怎么从这15万人中找出购买可能性最高的客户呢?下面对整个数据挖掘过程进行剖析。1、业务目标:找出最容易在将来购买保险的人。2、数据原创 2016-06-09 21:05:35 · 2440 阅读 · 3 评论 -
数据挖掘建模过程
一、数据挖掘(Data Mining,DM),又称为数据库中的知识发现(Knowledge Discover in Database,KDD),决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,分析、归纳、推理,挖掘潜在的模式,帮助决策者调整市场策略,减少风险,做出正确决策。知识发现的的三个阶段:1、准备数据; 2、数据挖掘; 3、结果表达和解释最著名的数原创 2016-06-02 22:40:28 · 2555 阅读 · 0 评论 -
Logistic回归模型
一、Logistic回归模型线性回归模型要求因变量是连续型正态变量。当因变量是分类变量时,Logistic回归模型是最好的回归模型。由于y只能取两个值1或0,y的条件数学期望:E(y|xi)=1*p(y=1|xi)+0*p(y=0|xi)=p(y=1|xi)选择一个函数,p(y=1|x)=f(x)=Logistic函数,作为回归方程。即利用观测数据(xi,yi)拟合一个Logist原创 2016-06-02 17:02:47 · 6137 阅读 · 0 评论 -
分类器的评估与选择
混淆矩阵:分析分类器的预测能力。以二元分类为例实际\预测y=1(阳)y=0(阴)合计y=1TPFNPy=0FPTNN其中:TP:“真阳性”的个数,预测“阳性为阳性”,正确。TN:“真阴性”的个数,预测“阴性为阴性”,正确。FP:“真阳性”的个数,预测“阴性为阳性”,错误。FN:“原创 2016-06-02 13:45:07 · 1083 阅读 · 0 评论 -
大数据挖掘笔记
1、度量给定词语在少数文档中的重要性:TF.IDF得分其中:tfij指词项i在文档j的词项频率,idfi指词项i在文档集中出现的逆文档频率。词项频率: 逆文档频率:例如:文档集有2^20篇文档,w在其中2^10篇中出现,在文档k中,只出现1次,该文档任一赐予做多出现20次。于是有:tf(w,k) = 1/20, idf(w) = log(2^20/2^10) = 1原创 2016-08-20 22:33:16 · 611 阅读 · 0 评论