数据挖掘
文章平均质量分 82
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
####好好#####利用各种信息作为因子的股票价格预测模型研究过程
完整架构概述在这篇文章中,我将创建一个预测股票价格变动的完整过程。我们将使用生成对抗网络(GAN)与LSTM(一种循环神经网络)作为生成器,使用卷积神经网络CNN作为鉴别器。我们使用LSTM的原因很明显,我们正在尝试预测时间序列数据。为什么我们使用GAN,特别是卷积神经网络(CNN)作为鉴别器呢?这是一个很好的问题:稍后会有特别的部分。当然,我们将详细介绍每个步骤,但最困难的部分是GAN:成功训练GAN的非常棘手的部分是获得正确的超参数集。出于这个原因,我们将使用贝叶斯优化(还有高斯过程)和深度强化学习原创 2022-03-02 15:47:05 · 1677 阅读 · 2 评论 -
通俗易懂理解——条件随机场CRF
https://mp.weixin.qq.com/s?__biz=MzIyNzE5NjExMA==&mid=2651342812&idx=1&sn=2f74c852200d6868f68a2f05ba561ac8&chksm=f3980a7dc4ef836b764c7ad2bab7c92e696074af43efa2a6be03d686fcec0a4a91a05a116b38&scene=178&cur_album_id=1381650339941761024转载 2021-01-29 15:55:59 · 2032 阅读 · 0 评论 -
端游、手游服务端常用的架构是什么样的?
作者:韦易笑链接:https://www.zhihu.com/question/29779732/answer/45791817来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。谢邀,手游页游和端游的服务端本质上没区别,区别的是游戏类型。类型1:卡牌、跑酷等弱交互服务端卡牌跑酷类因为交互弱,玩家和玩家之间不需要实时面对面PK,打一下对方的离线数据,计算下排行榜,买卖下道具即可,所以实现往往使用简单的 HTTP服务器:登录时可以使用非对称加密(RSA,.转载 2020-09-01 10:34:55 · 2854 阅读 · 1 评论 -
###好好好##### 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程|干货
零、什么是信用评分卡如今在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。信用评分卡多分为A,B,C卡三类:A卡(Application score card)申请评分卡 B卡(Behavior score card)行为评分卡 C卡(Collection score card)催收评分卡其评分机制的区别在于:使用的时间不...转载 2020-04-27 11:09:23 · 1089 阅读 · 0 评论 -
贝叶斯网络基础知识
贝叶斯网络把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。贝叶斯网络(Bayesian Network),又称有向无环图模型(directed acyclic graphical model ,DAG),是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量{X 1 ,X 2 ...X n }及其n组条件概率分布(Conditional Pr...转载 2019-10-20 22:03:49 · 2267 阅读 · 0 评论 -
信用评分卡模型-数据缺失值处理
image.png一、认识缺失值在我们的数据分析过程中,经常会碰到缺失值的情况。缺失值产生的原因很多,比如人工输入失误,系统出错,或者是正常情况,比如未婚状态下的子女个数肯定是0或者直接不填,这种情况就是正常的。所以我们处理缺失值的步骤一般是:1) 识别缺失值2) 检查导致缺失值的原因3) 删除包含缺失值的行或列或者用合理的数值填补缺失值或者不处理R使用 NA (不可...转载 2019-10-14 00:09:29 · 2631 阅读 · 0 评论 -
贝叶斯公式和朴素贝叶斯分类算法
在网上找了很多朴素贝叶斯分类算法的相关博客,首先感谢他们的劳动成果,我将自己认为有用的集合在一起,供以后复习和深入学习。首先,概念基础贝叶斯公式:定义:设A、B是两个事件,且P(A)>0,称P(B|A)=P(AB)/P(A)为在事件A发生的条件下事件B发生的条件概率。相关公式:乘法公式 P(XYZ)=P(Z|XY)P(原创 2015-06-17 20:44:42 · 5700 阅读 · 0 评论 -
梯度下降法和随机梯度下降法的理解
1:其实梯度下降算法,在使用的时候无非是要考虑到2个方面,一个是方向,一个是步长,方向决定你是否走在了优化的道路上还是优化道路的负方向,步长是决定你要走多久才能到最优的地方。对于第一个问题很好解决,就是求梯度,梯度的负方向就是了。难的是求步长,如果步子太小,则需要很长的时间才能走到目的地,如果步子过大可能在目的地的周围来走震荡。所以重点在于如何选择步长。2:对于随机梯度中,步长原创 2015-06-18 21:23:27 · 926 阅读 · 0 评论 -
生成模型和判别模型
生成模型与判别模型监督学习的任务就是学习一个模型,应用这个模型,对给定的输入预测相应的输出。这个模型一般为决策函数:Y=f(X) 或 条件概率分布:P(Y|X)。监督学习的学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach)。所学到的模型分别叫生成模型和判别模型。 生成方法定义由数据学习联合概转载 2015-07-08 16:45:28 · 421 阅读 · 0 评论 -
机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值转载 2015-07-09 21:43:13 · 645 阅读 · 0 评论 -
随机森林和GBDT的几个核心问题
随机森林random forest的pro和con是什么?优势是accuracy高,但缺点是速度会降低,并且解释性interpretability会差很多,也会有overfitting的现象。为什么要最大化information gain?从root到leaf,使得各class distribution的Entropy不断减低。如果相反的话,就会增加预测的不确定性。原创 2015-07-03 09:28:58 · 5390 阅读 · 1 评论 -
模拟退火算法和遗传算法的学习
在网上找到了几个比较好的描述,总结在在这里,以后如果用的到,再来深入研究一下。优化算法入门系列文章目录: 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直原创 2015-07-04 21:31:55 · 10897 阅读 · 0 评论 -
准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
自然语言处理(ML),机器学习(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。本文将简单介绍其中几个概念。中文中这几个评价指标翻译各有不同,所以一般情况下推荐使用英文。现在我先假定一个具体场景作为例子。转载 2015-07-27 11:29:17 · 4501 阅读 · 0 评论 -
逻辑回归及美团逻辑回归总结
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2015-07-27 16:38:45 · 3631 阅读 · 0 评论 -
从VC维和结构风险最小原理深入理解SVM
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。置信风险: 分类器对 未知样本进行分类,得到的误差。经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差结构风险:置信风险 + 经验风险结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率估计就是结构风险最小化的一个例子。当模型的条件概率分布、损失函数是原创 2015-06-14 20:08:07 · 5986 阅读 · 0 评论 -
简述朴素贝叶斯估计
第一部分贝叶斯公式的基本形式为:第二部分朴素贝叶斯法的过程:(1)确定特征属性,架设每个属性之间是相互独立的。(2)分类器训练阶段:A对每个类别计算P(Yi) B对每个特征属性计算所有划分的条件概率P(X|Yi);(3)分类器训练阶段:以P(Yi)* P(X|Yi) 最大分类项作为X所属的类别。简要的来说:对于给出的待分类项,求解此项出现的原创 2015-07-27 15:29:38 · 1054 阅读 · 0 评论 -
协同过滤算法实战
转载于ACdreamers,谢谢,仅供参考。 Contents 1. 协同过滤的简介 2. 协同过滤的核心 3. 协同过滤的实现 4. 协同过滤的应用 1. 协同过滤的简介 关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那转载 2015-07-14 15:36:09 · 1228 阅读 · 0 评论 -
几种推荐算法的总结
基于内容的推荐编辑基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法:启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行验证,然后再不断修改公式以达到最终目的。而对于模型的方法就是转载 2015-07-07 21:36:53 · 8368 阅读 · 0 评论 -
Libsvm使用心得
Libsvm使用心得首先下载Libsvm、Python和Gnuplot:l libsvm的主页http://www.csie.ntu.edu.tw/~cjlin/libsvm/上下载libsvm (我自己用2.86版本)l python的主页http://www.python.org下载 python (我自己用2.5版本)l gnu转载 2015-07-08 11:29:49 · 507 阅读 · 0 评论 -
搜集的十大开源推荐算法
搜集的十大协同过滤算法,仅供参考#1.SVDFeature主页:http://svdfeature.apexlab.org/wiki/Main_Page 语言:C++一个feature-based协同过滤和排序工具,由上海交大Apex实验室开发,代码质量较高。在KDD Cup 2012中获得第一名,KDD Cup 2011中获得第三名,相关论文 发表在2012的JMLR原创 2015-07-14 15:48:22 · 8448 阅读 · 0 评论 -
机器学习和统计模型的差异
在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。 在这篇文章中,我将尽最大的努力来展示机器学习和统计模型的区别,同时也欢迎业界有经验的朋友对本文进行补充。在我开始之原创 2015-07-30 08:26:48 · 2128 阅读 · 0 评论 -
一种面向高维数据的继承聚类算法
一种面向高维数据的集成聚类算法聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本文提出了一种面向高维数据的聚类集成算法。该方法针对高维数据的特点,先用分层抽样的方法结合信息增益对每个特征簇选择合适数量比较重要的特征的生成新的具代表意义的数转载 2015-07-29 21:36:23 · 2586 阅读 · 0 评论 -
数据分析与数据仓库建模
第一部分 数据分析师现在已经成为了一个热门的职位,高薪的吸引力让很多先要从事这方面工作的人趋之若鹜,各种数据培训课程的开设,但是重点都是在怎么学习算法、怎么进行数据处理,怎么保证通过数据模型可以更好对数据进行数据分析。但是对于想要从事数据分析的人来说,要知道还有其他更重要的知识。第一、对于数据模型的正确认识一个好的数据模型可以帮助企业预测未来的数据,这个模型是不是有效的,能不能原创 2015-07-30 22:42:31 · 5379 阅读 · 0 评论 -
推荐系统经验之谈1
Reading lists虽然很多人觉得作为AI的分支之一,推荐跟自然语言处理等问题的难度不可同日而语。但所谓磨刀不误砍柴工,我觉得,至少在开工前先应该阅读这样基本书,起码要看看目录,以对于推荐系统有个初步的了解。 中文书籍:1.《推荐系统实践》项亮http://book.douban.com/subject/10769749/这本书你说他好吧,不如reco转载 2015-08-03 09:31:17 · 666 阅读 · 0 评论 -
Hadoop学习之MapReduce框架
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2015-07-22 17:03:29 · 563 阅读 · 0 评论 -
影响推荐系统性能的因素
数据集是movielens-1M(下载)版本。1. 训练集大小对于推荐性能的影响使用SlopeOne算法,每次随机选取6%的用户预测其喜好,进行5次实验,取MAE的均值,得到下表: 训练集大小(%)MAE900.71718149700.73005925500.原创 2015-08-02 16:51:32 · 1013 阅读 · 1 评论 -
随机森林和GBDT算法的分析
前言提到森林,就不得不联想到树,因为正是一棵棵的树构成了庞大的森林,而在本篇文章中的”树“,指的就是Decision Tree-----决策树。随机森林就是一棵棵决策树的组合,也就是说随机森林=boosting+决策树,这样就好理解多了吧,再来说说GBDT,GBDT全称是Gradient Boosting Decision Tree,就是梯度提升决策树,与随机森林的思想很像,但是比随机森林原创 2015-07-02 15:08:54 · 1941 阅读 · 0 评论 -
阿里推荐大赛:ODPS SQL 入门
第二季才是真正的开始,第一季的汗水、喜悦、纷争都通通过去了。第二季绝对是拼算法、拼模型、拼平台熟练度的比赛,相信坚持下来的话肯定收获颇丰。昨天也迫不及待地进入 「天池」 ,居然是 Windows 系统,一点都提升不了逼格啊。看文档的过程中,又是 ODPS SQL、MapReduce、XLab/XLib、Tunnel、ODPS SDK什么的,相信很多人都跟我一样看的眼花,茫然不知所措,更别提对 MR转载 2015-08-04 22:37:45 · 4266 阅读 · 0 评论 -
阿里推荐大赛:ODPS SQL 构建离线评估
上一篇文章介绍了 ODPS SQL 的大概使用方法,几个 tips,和讲到一半的离线评估。现在上来把上次的坑填完。希望对于还没有开始离线调优的团队有点帮助。划分训练集、验证集回顾训练集、验证集的划分。根据时间,可以将前三月划分为训练集:create table train_set asselect * from t_alibaba_bigdata转载 2015-08-04 22:41:39 · 690 阅读 · 0 评论 -
生成模型和判别模型的理解
【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测【简介】简单的说,假设o是观察值,q是模型。如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和转载 2015-07-24 16:15:14 · 3195 阅读 · 0 评论 -
GBDT基本概念和原理
GBDT概念与基础 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的转载 2015-08-04 14:38:08 · 2686 阅读 · 0 评论 -
推荐系统之协同过滤实现
推荐系统的评测指标为了评估推荐算法的好坏需要各方面的评估指标。准确率准确率就是最终的推荐列表中有多少是推荐对了的。召回率召回率就是推荐对了的占全集的多少。下图直观地描述了准确率和召回率的含义覆盖率覆盖率表示推荐的物品占了物品全集空间的多大比例。新颖度新颖度是为了推荐长尾区间的物品。用推荐列表中物品的平均流行度度量推荐结果的新颖度。转载 2015-08-04 22:33:28 · 1645 阅读 · 0 评论 -
Treelink算法简介
“机器学习”这个名词对大家来说想必不是一个陌生的词汇,特别对算法组的同学来说,工作中或多或少接触使用过这种“高科技“。对于我来说,刚来淘宝工作一个月就开始接触了机器学习,当时做主搜索功夫熊猫项目,和小致飘雪一起做交易模型,正是使用了机器学习的方法,也首次接触了treelink模型。做完那个项目后对机器学习解决问题的流程有了一定的了解,但对其内部的工作原理和实现机制还是完全不知道,基本也就是在黑盒使转载 2015-09-10 14:53:50 · 1222 阅读 · 0 评论 -
均值、众数、中位数之间的关系以及反应数据分布的形状
众数:是一组数据中出现次数最多的数值; 众数、中位数与算术平均数之间有着一定的关系,这种关系决定于总体次数分布的状况。当次数分布呈对称的钟型分布时,算术平均数位于次数分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等。当次数分布呈非对称的钟型分布,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。当次原创 2015-08-20 20:56:57 · 17924 阅读 · 0 评论 -
谷俊丽分享之基于深度学习的大数据挖掘
谷俊丽:博士学历,毕业于清华大学-美国University of Illinois Urbana-champaign大学,在清华期间作为核心人员研发过超长指令字数字信号处理器,在美期间曾参与UIUC超级计算机上的研究工作,并工作实习于Google总部和创业公司Personify。现于AMD中国研究院高级研究员,从事异构计算平台、人工智能+Big Data相关的研究。在计算机和高性能计算领域转载 2015-09-26 17:33:29 · 9778 阅读 · 0 评论 -
准确率召回率以及F1(模型评估方法)
召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。召回率:Recall,又称“查全率”——还是查全率好记,也更能体现其实质意义。准确率:Precision,又称“精度”、“正确率”。以检索为例,可以把搜索情况用下图表示: 相关不相关检索到AB原创 2015-09-05 16:11:48 · 10442 阅读 · 0 评论 -
聚类算法之GMM聚类算法
上一次我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被 assi转载 2015-09-28 15:14:56 · 13281 阅读 · 1 评论 -
(重要)Stanford机器学习---怎样选择机器学习方法、系统
本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Machines 支持向量机)、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning转载 2015-09-30 10:32:36 · 531 阅读 · 0 评论 -
几种降维思想方法总结
数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。数据降维的方法 主要的方法是线性映射和原创 2015-09-29 15:15:52 · 28282 阅读 · 1 评论 -
参数寻优问题详细解析
参数寻优参数寻优背景 参数寻优问题随处可见,举几个例子。 1. 小明假期结束回校,可以坐火车,可以坐汽车,可以坐飞机,还可以走着,小明从哪条路去学校更好呢? 2. 简单的数学,一元二次方程求根。 3. 高深的数学,七桥问题,怎么才能通过所有的桥各自一次走回七点所在的岸边。 4. 机器学习中,求代价函数在约束条件下的最优解问题。 其上四个转载 2015-09-29 15:55:44 · 20298 阅读 · 4 评论