机器学习/云计算
shuaishuai3409
我很帅
展开
-
如何在python下安装xgboost
目前做二分类预测xgboost是效果最好的分类器,在kaggle等数据挖掘竞赛上的表现从未令人失望过。喜欢R的朋友可以直接在CRAN上下载xgboost包(install.pakages(‘xgboost’))。而python用户都深受安装新包的痛楚,由于xgboost作者删除了github上的windows目录,导致无法安装最新xgboost版本。今天我就教大家如何在python下安装较早版但也足原创 2016-03-18 15:44:07 · 12897 阅读 · 3 评论 -
如何在ubuntu系统下安装jdk
由于换了系统,要从新配置下环境。下面说明下如何在ubuntu系统下安装jdk。首先安装eclipse,我是在ubuntu软件中心安装的,3.8版本,比较老。但图省事也就先这样了。然后要从网上下载jdk1.7(3.8版本最多支持到jkd1.7,若想用jdk1.8,得下载最新版eclipse)。我下的是jdk-7u79-linux-x64.tar.gz,下载到了/home/wohenshuai目录下。原创 2016-04-22 18:49:28 · 1040 阅读 · 0 评论 -
实验室云平台架构学习笔记
这些日子学习了实验室云平台的体系架构,在多次与小孟哥请教后对该架构有了一定了解。首先应明白建立云平台的目的,与传统的服务器相比,云平台可以将物理资源虚拟化为虚拟机资源池,灵活调用软硬件资源,实现对用户的按需访问。而且在运行过程中根据用户并发量不同,实时迁移虚拟机资源,一方面保证提供高质量服务,另一方面最小化资源成本,提高CPU、内存等利用率。该架构主要分为4层,从底层到上层分别是资源层、虚拟层原创 2016-01-27 15:21:48 · 3048 阅读 · 0 评论 -
R语言数据处理(一)
利用r语言进行数据处理,将用户购买的商品信息表变成商品类目表。原创 2015-12-03 22:16:33 · 751 阅读 · 0 评论 -
python中有关矩阵的创建、求逆、转置
NumPy是Numarray的后继者,用来代替NumArray。SAGE是基于NumPy和其他几个工具所整合成的数学软件包,目标是取代Magma, Maple, Mathematica和Matlab 这类工具。转载 2016-03-08 20:23:52 · 68849 阅读 · 5 评论 -
数据降维和特征工程方法综述
数据降维和特征工程方法综述原创 2016-03-23 16:10:49 · 982 阅读 · 0 评论 -
世界杯预测(二) 球队近期状态模型
足球比赛中,球队的近期状态权重很大,最有可能影响比赛结果。为了对近期状态有个数量值描述,本文引用博彩业中预测球队胜负的“六场预测法”。搜集各支队伍在世界杯杯赛前的最近六场大型比赛结果,建立模型。首先引入两个概念: 1. 对手强度ST(Strength of opponent):ST=(200-OR)/100 ,OR为对手世界排名。 2. 球队每场积分规则:Ti:3-1-0 3. 近期状态的数值原创 2015-12-02 23:02:15 · 1592 阅读 · 0 评论 -
DBLP数据集python解析
DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统,按年代列出了作者的科研成果。包括国际期刊和会议等公开发表的论文。DBLP没有提供对中文文献的收录和检索功能,国内类似的权威期刊及重要会议论文集成检索系统有C-DBLP。其并没有把数据保存在数据库中,而是保存在了XML文件中。原创 2017-01-10 18:00:45 · 11331 阅读 · 1 评论 -
世界杯预测(一) 球队双方交锋情况
各种大型体育竞赛前夕,结果预测炒的火热。那么具体是通过什么方法来预测的呢?以世界杯为例,首先得提取出影响比赛结果的因素,包括双方交锋情况,球队排名,球员间传切配合数,球队的近期状态,主场优势等。这篇文章主要谈谈双方交锋情况如何评价。评价指标为层次分析法中的权向量值。原创 2015-12-01 14:14:33 · 1339 阅读 · 0 评论 -
一线互联网公司机器学习岗位面试经验
从9月18号开始投实习简历到10月21号,差不多一个月的时间,面了三个互联网公司,有研发岗和算法岗,有的拿到了internship, 也有的被惨虐;会有面试通过的惊喜,也有一轮游的不甘;对结果的无法控制和等待过程中的焦虑,更会有对自身的不自信,相信每个面试的人都经历过,但无论如何实习这件事算是过去了,希望自己在接下来的路依旧不卑不亢,努力前行。原创 2016-10-21 19:26:40 · 11603 阅读 · 1 评论 -
R语言数据处理(二)字符分隔
r语言里字符分隔的代码原创 2015-12-04 23:05:03 · 14254 阅读 · 0 评论 -
r语言数据处理(三)
1原创 2015-12-05 23:17:31 · 862 阅读 · 0 评论 -
常用聚类算法以及算法评价
聚类模型是一种非监督的学习方法,聚类的输入是一组未标记的数据,聚类模型根据自身的距离或相似性将其化为若干组,划分的原则是组内距离最小化而组间距离最大化。常见聚类方法见下表: 类别 主要算法 划分方法 k-Means,k-Medoids(k中心点),CLANRANS(基于选择的算法) 层次分析方法 BIRCH(平均迭代规约和聚类),CURE(代表点聚类),CHAMELEON(动态原创 2016-07-24 17:02:45 · 6529 阅读 · 0 评论 -
决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略
决策树缺点和注意事项:决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。若目标变量是连续变量,那么决策树就不使用了,改用回归模型若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前的区原创 2016-06-27 17:22:41 · 13334 阅读 · 0 评论 -
中位数应用:输油管道问题--快速排序、改进、变种
问题描述:某石油公司计划建造一条由东向西的主输油管道。该管道要穿过一个有n口油井的油田。从每口油井都要有一条输油管道沿最短路经(或南或北)与主管道相连。示意如下所示。如果给定n口油井的位置, 即它们的x坐标(东西向)和y坐标(南北向), 应如何确定主管道的最优位置, 即使各油井到主管道之间的输油管道长度总和最小的位置? 问题分析:问题可以抽象为给定n个点坐标,如何确定一条平行于x轴的直线,使得所有原创 2016-05-18 19:07:32 · 1842 阅读 · 0 评论 -
python用箱型图进行异常值检测
异常值检测:数据挖掘工作中的第一步就是异常值检测,异常值的存在会影响实验结果。异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值。常用检测方法3σ\sigma原则和箱型图。其中,3σ\sigma原则只适用服从正态分布的数据。在3σ\sigma原则下,异常值被定义为观察值和平均值的偏差超过3倍标准差的值。原创 2016-05-16 20:52:01 · 50133 阅读 · 16 评论 -
分类算法属性选择度量--信息增益、增益率、Gini指标
属性选择度量就是分裂规则,用来确定分裂属性和分裂子集信息增益信息增益:某属性的信息增益值越大,这个属性作为一棵树的根节点就能使这棵树更简洁,降低树的高度。衡量给定属性划分训练样本的能力。计算信息增益的公式需要用到“熵”(Entropy)。熵:衡量任意样本集的纯度,熵越小,样本纯度越高。原创 2015-11-22 19:27:12 · 9632 阅读 · 0 评论 -
K—means算法实现流程
K-means算法实现流程原创 2015-11-14 22:05:34 · 1536 阅读 · 0 评论 -
聚类分析--k中心点算法
k中心点算法思想:k-means是每次选簇的均值作为新的中心,迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的,因为一个具有很大极端值的对象会扭曲数据分布。那么我们可以考虑新的簇中心不选择均值而是选择簇内的某个对象,只要使总的代价降低就可以。PAM(partitioning around medoid,围绕中心点的划分)是具有代表性的k-medoids算法。它最初随机选择k个对象作为中心点,原创 2015-11-24 17:26:23 · 28920 阅读 · 0 评论 -
决策树归纳分类算法理解
决策树归纳分类算法理解决策树归纳是从类标记的训练数据构建决策树,属于分类领域。遍历根节点到全部叶节点的路径,每条路径都属于一个元组分类。整棵决策树形成分类规则。目前构造决策树的算法包括ID3(iterative dichotomy),C4.5,CART,都基于如下抽象的算法流程,现通过一个详细的数据集对算法进行详细解释:该算法名称Generate_decision_tree(,,),递归进行决策树构。原创 2015-11-19 23:37:42 · 5673 阅读 · 0 评论 -
KVM虚拟机迁移概述
近期还在学习实验室云平台,当前学到了虚拟机迁移这块。当用户应用并发量改变时,相应云平台虚拟机资源要做出动态调整。不仅要满足SLA(给用户提供可靠的服务),而且能提高均衡负载,降低能耗。 迁移时要考虑:整体迁移时间要短。因为虚拟机迁移会很消耗能源。停机时间要短。物理机停机,才可进行虚拟机迁移,但是会影响服务性能。所以考虑何种策略使得停机时间最短。性能影响最小。满足SLA,或者说使其违背率最小。原创 2016-03-02 19:31:30 · 1331 阅读 · 0 评论 -
推荐系统-矩阵分解原理详解
目前推荐系统中用的最多的就是矩阵分解方法,在Netflix Prize推荐系统大赛中取得突出效果。以用户-项目评分矩阵为例,矩阵分解就是预测出评分矩阵中的缺失值,然后根据预测值以某种方式向用户推荐。常见的矩阵分解方法有基本矩阵分解(basic MF),正则化矩阵分解)(Regularized MF),基于概率的矩阵分解(PMF)等。今天以“用户-项目评分矩阵R(N×M)”说明三种分解方式的原理以及应用。原创 2016-03-07 17:44:33 · 23205 阅读 · 7 评论 -
随身云数据挖掘竞赛解题思路
随身云数据挖掘竞赛解题思路前阵子参加牛客网举办的数据挖掘竞赛,数据源源自中华万年历的“生活圈”数据,类似于朋友圈,用户可以发表各种帖子,也可以对帖子内容进行赞踩等行为。数据内容是用户11月份的帖子浏览记录,以及前27天对帖子的赞踩记录,共约8G。目标任务是根据用户11月份的浏览记录,以及前27天赞踩记录,挖掘出用户的个人喜好,然后预测用户对月末28,29,30这三天出现的帖子的赞踩行为。原创 2016-01-27 15:32:46 · 1208 阅读 · 0 评论 -
如何利用AdaBoost提高分类性能
AdaBoost属于元算法,不同于传统的单分类器(决策树、朴素贝叶斯、SVM等),它是多个分类器的组合,共同决定预测结果。而且适用数值型和标称型(类别)数据。原创 2016-03-24 21:53:14 · 4652 阅读 · 0 评论 -
基于概率的矩阵分解原理详解(PMF)
上一篇博客讲到了推荐系统中常用的矩阵分解方法,Regularized MF是对Basic MF的优化,而PMF是在Regularized MF的基础上,引入概率模型进一步优化。假设用户U和项目V的特征矩阵均服从高斯分布,通过评分矩阵已知值得到U和V的特征矩阵,然后用特征矩阵去预测评分矩阵中的未知值。原创 2016-03-07 21:37:16 · 34089 阅读 · 9 评论 -
如何理解过拟合、正则化和交叉验证
机器学习中大家经常会遇到过拟合问题,过拟合就是模型在训练集模型表现良好,但是在测试集就不行了。具体表现在训练集为追求好的效果(经验损失小,准确率高等),模型建立的过于复杂,能够很好反映已知数据,但泛化能力太差。学术点说就是empirical loss比较小,而Generalized loss比较大。通常数据师在建模型时,基本都在遵循简化原则,即在拟合效果差不多的情况下,模型越简单则在测试集表现越好。原创 2016-03-28 10:39:56 · 9219 阅读 · 0 评论 -
KNN
KNN(K-NearestNeighbor)是分类算法中最简单的一种,用来计算特征的相似性。以电影评分系统为例,每个电影都会有一个评分向量,每部电影也都有一个类标签-动作、爱情等。通过KNN算法可以计算出不同电影之间的评分向量的距离,以此来判断不同电影间的相似性,当有一部新电影进来时,就可以将其归为最相似电影所属的那一类。本文首先介绍KNN(K-近邻)算法的原理,然后给出其实现的伪代码,最后给出java代码。原创 2016-04-28 21:34:54 · 1226 阅读 · 0 评论 -
SVD矩阵分解考虑时间因素
推荐系统种矩阵分解有着不错的效果,其中SVD(Singular Value Decomposition)奇异值矩阵分解也是常用的一种方法,通过对原始矩阵进行SVD分解后,可以将原始高纬数据映射到低维空间,在降维过程中,其关注的是如何去除噪声和保留更多有效信息。其优点:简化数据,去除噪声,提高算法结果 缺点:分解过程和实际业务执行过程匹配不上 适用数据类型:数值型。原创 2016-04-29 20:11:40 · 4056 阅读 · 1 评论 -
推荐系统: 相关推荐方法对比
SVD 矩阵因子分解模型把用户和物品两方面的信息映射到一个维度为f的联合隐语义空间中,因此用户-无论品间的交互作用被建模为该空间中的内积。这个隐语义空间视图通过描述物品和用户在各个因子上的特征来解释评分值,而这些因子是从用户反馈自动推断出的。例如,如果物品是电影,因子将会用来度量如喜剧或悲剧、面向儿童的等级等这些明显的维度,以及如性格发展的深度或者“突变”等隐式维度,甚至是完全无法解释的维度。原创 2015-12-08 22:51:34 · 1058 阅读 · 1 评论 -
个性化推荐算法------基于内容的推荐和基于邻域的协同过滤
这篇文章主要讨论了个性推荐算法中,基于内容推荐和基于邻域的协同过滤推荐的分析比较。应用背景是电影评分预测系统。原创 2015-10-26 13:32:44 · 4283 阅读 · 0 评论