DataMiner
DataGPT
透过技术圈百态,体会世间冷暖,树立正确的技术观、人生观、价值观和世界观
展开
-
主成分分析
1.1 算法简介主成分分析是一种简化数据集的技术,它旨在利用降维的思想,把多个指标转化为少数几个综合指标。它通过一个线性变换,把数据变换到一个新的坐标系统中,降维后的之指标既能代表原始的绝大多数信息,又互不相关,并且在新的综合指标的基础上,可以进一步的统计分析。例如衡量学生成绩时,成绩表里有语文、数学、物理、化学。可是化学老师勤快,一学期测验过好多次,所以这里就有多个化学成绩。那么计原创 2015-02-07 11:28:05 · 1504 阅读 · 0 评论 -
决策树
1.1 算法简介 决策树归纳是经典的分类算法。它采用自顶向下递归的方式构造决策树。树的每一个结点上使用信息论中的信息增益率(信息论中的概念,衡量是否是有益划分的量)选择测试属性。可以从生成的决策树中提取规则。1.2 算法适用场景算法优缺点: 优点:上图是一个完整的决策树,从这个决策树可以很明显的看到决策树的优点:1)原创 2015-02-07 11:32:12 · 1073 阅读 · 0 评论 -
逻辑回归
1.1 算法简介逻辑回归是概率型非线性模型,它的目的在于找出变量取得指定值的的概率与其他变量之间的定量关系。例如,要研究冠心病发生(y=1)的概率P和是否吸烟(x1)、血压(x2)、是否饮酒(x3)、胆固醇(x4)等各因素的定量关系。可以建立如下模型:概率P是关于Z = b0 + b1*x1 + b2*x2 + b3*x3 +…+bk*xk的逻辑斯蒂回归函数,原创 2015-02-07 11:30:57 · 678 阅读 · 0 评论 -
协同过滤
1.1 算法简介协同过滤 (Collaborative Filtering, 简称 CF)简单来说就是利用与使用者兴趣相投、品味相同的群体的喜好,来对使用者产生他所“可能”感兴趣的信息。首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过原创 2015-02-07 11:29:01 · 774 阅读 · 0 评论 -
K-means算法
1.1 算法简介K-means是已知解决聚类问题的算法中较为简单的一个。古语曰:物以类聚,人以群分,K-Means就是这么一个可以帮你“分门别类”的算法。算法的基本思想就是用待划分对象之间的“距离”来衡量对象之间的远近,然后把靠的相对近的对象划分进相同的类里,把靠的相对远的对象划分到不同的类里。图 1-1 K-Means的划分结果样例如图1-1所示,K-Means原创 2015-02-07 11:33:01 · 1284 阅读 · 0 评论 -
线性回归算法
1.1 算法简介线性回归的目的在于找出某一变量与其他多个变量之间的定量关系,并且是线性关系。例如,某产品的销售额(y)和价格(x1)、广告(x2)、产品研发投入(x3)、其他经营投入(x4)等各因素的定量关系:y = b0 + b1*x1 + b2*x2 +b3*x3 +b4*x4 。根据现有数据求得系数b0、b1、b2、b3、b4之后,可以预测给定价格(x1)、广告(x2)、产品研原创 2015-02-07 11:32:35 · 1182 阅读 · 0 评论 -
时间序列
1.1 算法简介时间序列分析是一种广泛应用的数据分析方法,主要用于描述和探索现象随时间发展变化的数量规律性。近年来,时间序列挖掘在宏观紧急预测、市场营销、金融分析等领域得到应用。时间序列分析通过研究信息的时间特性,深入洞悉事物发展变化的机制,成为获得知识的有效途径。时间序列有多种模型,我们使用的是指数平滑法时间序列模型。指数平滑法是布朗(RobertG..Brown)所提出,布朗原创 2015-02-07 11:29:43 · 2034 阅读 · 0 评论 -
朴素贝叶斯
1.1 算法简介一种事物可以分成几类,具体分到哪一类要靠其他的若干个属性的取值来决定,但是每个属性的权重分配多少是个问题。从概率角度看,问某个事物分到哪个类,就是问在此给定属性值条件下属于每个类的条件概率,找出最大值,就划分到概率最大的类。例如,新浪微博根据有无头像,好友人数(“多”“少”)和资料完整程度(“高”“中”“低”)这三个指标判断一些用户是否是僵尸用户。如果已经人工取得原创 2015-02-07 11:30:17 · 660 阅读 · 0 评论 -
相似特征
1.1 算法简介相似特征(similar feature, 简称sf)分析是在协同过滤的思想基础上的一个特殊的应用。相似特征分析是根据一个物品的不同维度的描述,按维度的权重进行类似协同推荐中的用户相似度计算。这里物品就相当于基于用户的协同推荐中的用户,这里不同维度的描述就相当于协同推荐中用户订阅的商品,而权重就相当于对商品的评分。比如一个名为“经过”的彩铃,它的演唱者是“陈楚生”原创 2015-02-07 11:31:29 · 1687 阅读 · 0 评论 -
Apriori算法
挖掘关联规则的目的在于在一个数据集中找出有关联的对象,有时候也称为“购物篮”分析 (market basketanalysis)。例如,购买鞋的顾客,有30%的可能也会买袜子,买面包的顾客中60%的也会买牛奶,那么袜子和鞋、面包与牛奶就是有关联的对象。这其中最有名的例子就是"尿布和啤酒"的故事了。 Apriori是挖掘关联规则的算法中一个基本的算法。 算法可以挖掘出数据中经常一起出现的对象原创 2015-02-07 11:38:01 · 1465 阅读 · 0 评论