数据挖掘
happyprince
这个作者很懒,什么都没留下…
展开
-
大数据学习[05]:Spark高可用配置安装
摘要:目的是基于zk搭建高可用Spark计算框架;首先安装scala环境;然后,配置spark相关配置文件;最后启动zookeeper,hadoop, spark,查看各个节点的进程情况, 展示demo, 验证spark高可用是怎么一回事。前置linux集群系统配置:[1] 大数据学习前夕[01]:系统-网络-SSH JDK环境:[2] 大数据学习前夕[02]:JDK安装升级 zookeepe原创 2017-09-18 21:10:30 · 981 阅读 · 0 评论 -
DM08--不平衡数据分类算法介绍与比较
转自:http://blog.csdn.net/a358463121/article/details/52304670 原文:https://arxiv.org/pdf/1608.06048.pdf 介绍在数据挖掘中,经常会存在不平衡数据的分类问题,比如在异常监控预测中,由于异常就大...转载 2018-03-09 22:48:55 · 547 阅读 · 0 评论 -
DM07-Ensemble组合技术
一、组合技术组合技术即通过聚集多个分类器的预测来提高分类准确率。 两个思路: 思路1:构建多个独立的估计器,然后取它们的预测结果的平均。一般来说组合之后的估计器是会比单个估计器要好的,因为它的方差减小了。[Bagging 方法 , 随机森林 , …] 思路2:结合多个弱模型,使集成的模型更加强大;基估计器是依次构建的,并且每一个基估计器都尝试去减少组合估计器的偏差。[AdaBoost ,...原创 2018-02-25 10:21:21 · 1195 阅读 · 0 评论 -
DM09---Cox-Box
1. 相关参考内容CoxBox论文G.E.P. Box and D.R. Cox, “An Analysis of Transformations”, Journal of the Royal Statistical Society B, 26, 211-252 (1964).scipy的CoxBoxhttps://docs.scipy.org/doc/scipy/refe...原创 2018-03-12 18:22:58 · 639 阅读 · 0 评论 -
DM10-偏差-方差-验证曲线-学习曲线
一直在匆忙学习各种模型,很少静下心来思考过,模型学习的一些方法根源于哪里;对于所提出的模型是否合适,参数是否合适。从而了验证的相关方法,验证模型:验证曲线与学习曲线 确定一个模型后,想验证哪个参数比较好,我们可以采用验证曲线去完成这个问题。 来自http://sklearn.apachecn.org/cn/0.19.0/modules/learning_curve.html的关于“偏差”与“方...原创 2018-03-12 20:59:43 · 943 阅读 · 0 评论 -
DM11---数据可视化[图片数字]
基于TSNE可视化 例子01:import matplotlibimport matplotlib.pyplot as pltimport pandas as pdimport seaborn as snsfrom sklearn.decomposition import PCAfrom sklearn.manifold import TSNEtrain_df = pd...原创 2018-03-12 22:23:22 · 593 阅读 · 0 评论 -
DM12---xgboost学习
基本资料论文: https://arxiv.org/abs/1603.02754 原理博客: 《机器学习(四)— 从gbdt到xgboost》 https://www.cnblogs.com/mfryf/p/5946815.html 《GBDT&GBRT与XGBoost》 http://blog.csdn.net/u011826404/article/details/764...原创 2018-03-13 17:27:34 · 352 阅读 · 0 评论 -
DM13---结合Scikit-learn介绍几种常用的特征选择方法
原文地址:https://www.cnblogs.com/hhh5460/p/5186226.html作者:Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之转载 2018-03-20 14:01:18 · 349 阅读 · 0 评论 -
基于典型相关分析的词向量
转自:https://blog.csdn.net/wangyangzhizhou/article/details/79009096转载 2018-08-15 15:37:29 · 378 阅读 · 0 评论 -
梯度下降法
本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是 stanford的machine learning公开课,在ve...原创 2015-04-04 10:58:55 · 132 阅读 · 0 评论 -
先验概率与后验概率及贝叶斯公式
先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.一、先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,如贝叶斯公式中的,是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割的...原创 2015-04-11 23:31:08 · 257 阅读 · 0 评论 -
漫谈数据挖掘从入门到进阶(转)
In no particular order: Foundations of Machine Learning, Mehryar Mohri, Afshin Rostamizadeh, Ameet TalwalkarAn ambitious book that covers an impressive subset of the theoretical basis of machine lear...原创 2015-04-15 14:25:01 · 325 阅读 · 0 评论 -
18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了。 地址链接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我...原创 2015-04-15 14:57:22 · 147 阅读 · 0 评论 -
Storm实时计算:流操作入门编程实践
Storm是一个分布式是实时计算系统,它设计了一种对流和计算的抽象,概念比较简单,实际编程开发起来相对容易。下面,简单介绍编程实践过程中需要理解的Storm中的几个概念:TopologyStorm中Topology的概念类似于Hadoop中的MapReduce Job,是一个用来编排、容纳一组计算逻辑组件(Spout、Bolt)的对象(Hadoop MapReduce中一个Job包含...原创 2015-04-15 23:48:25 · 121 阅读 · 0 评论 -
Hadoop生态系统介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统: 2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop...原创 2015-04-16 12:39:47 · 159 阅读 · 0 评论 -
NLP17-word2vec的一些想法
word2vec确是挺好用的。 关于原理网上比较多。 【1】大白话讲解word2vec到底在做些什么 http://blog.csdn.net/mylove0414/article/details/61616617 word2vec是一个最初级的入门白话讲述。作为一个感性认识的讲述。 【2】word2vec原理及实现 http://blog.csdn.net/FANGPINLEI/...原创 2018-03-07 21:01:19 · 488 阅读 · 0 评论 -
转--强大的矩阵奇异值分解(SVD)及其应用
转自:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html版权声明:本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @l转载 2017-11-06 21:10:49 · 650 阅读 · 0 评论 -
NLP10-Gensim源码简析[LsiModel]
摘要: 浏览完整个代码,对整个思路有所了解, 实现LSI模型其实就是一个SVD分解,然后进行TSVD截断奇异值分解;采用了两个算法:随机二阶段相似算法,另一个采用了svdlibc中实现的Lanczos算法。另外,采用两种计算模式:一个是单机;一个分布式;分布式的实现是依赖了Pyro4框架来实现,先实现一个调度器,让调度器来实现工作节点,每个工作节点又相当于单机了,这个实现也是串联来计算的,一个一个工原创 2017-11-07 23:52:19 · 2521 阅读 · 1 评论 -
NLP12-Bayes与文本分类探讨
摘要: 学习Bayes的基础,公式,原理,把Bayes应用到文本分类的小例子。通过手工例子理解后,依托skLearn工具,进行对中文作一个分类探讨,采用三类200多条记录做实现,三类组合起来的正确率为83%,两两区别90%以上。0. Bayes定义Bayes的定义网上很多,可以看一下< 从贝叶斯方法谈到贝叶斯网络> http://blog.csdn.net/v_july_v/article/det原创 2017-11-13 20:58:25 · 358 阅读 · 0 评论 -
DM01-TSVD进一步探索
摘要:进一步了解TSVD,进一步确认TSVD与LSA的关系,以sklearn的TruncatedSVD为例,在sklearn的文档帮助下理解对TSVD的理解及动手实现一个例子来一探究竟。在学习LSA时,遇到了TSVD,或者叫截断奇异值分解,后面在sklearn中再次发现了它,TSVD在实现像PCA那样进行降维,在文本的处理,TSVD就是实现与解决LSA的模型算法。sklearn中,TSVD被注解为“原创 2017-11-30 23:16:35 · 1223 阅读 · 0 评论 -
DM02-sklearn特征选择总结与Demo
摘要:学习sklearn的特征选择模型,先画导向图,然后写demo,最后给出了离散类型的几种用法。作为初探指导记录与学习。0. 学习sklearn的特征选择http://scikit-learn.org/stable/modules/feature_selection.html#removing-features-with-low-variance1. 特征选择2. demo代码# coding=u原创 2017-12-22 16:10:54 · 594 阅读 · 0 评论 -
NLP14-基于Gensim中的Doc2Vec的试探
摘要:经过加载数据,分词,运行Gensim中的Doc2Vec进行训练并作文本相似性的预测,可实验的结果不满意,有待进一步研究Doc2Vec。关于Doc2Vec的论文:http://cs.stanford.edu/~quocle/paragraph_vector.pdfDoc2Vec与Word2Vec来自同一大师的手笔,两者的思想也比较像。语料分词###代码#### -*- coding:utf-8原创 2017-11-26 22:32:56 · 980 阅读 · 0 评论 -
DL05-学习优化方法总结
摘要:主要是对常用的优化方法进行分析,并作出思维导向图,包括:BGD,SGD,Momentum,AdaGrad,RMSProp,Adam 总结各个方法的关系与改进点。如下图所示内容:原创 2018-01-01 11:26:02 · 460 阅读 · 0 评论 -
DM05-奇异点处理总结
sklearn的奇异点检测 可以考虑四种方法去处理这个问题。经过词典及停用过滤并分词收集文本,本次选择母婴主题的文章,建立相关词典及停词之后,再进行分词: hash向量化作降维文本向量化,由于文本语料比较大,采用hash向量化。class ForHash(object): def __init__(self, in_file, n):原创 2018-01-11 10:03:45 · 1786 阅读 · 0 评论 -
DM04-从贝叶斯到深度学习及各自优缺点
题目:机器学习算法集锦:从贝叶斯到深度学习及各自优缺点 作者:机器之心 来源:https://zhuanlan.zhihu.com/p/25327755https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY/t/categories-of-algorithms-non-exhaustive 在我们日常生活中所用到的推荐系统、智能图片美化应用转载 2018-01-06 18:07:15 · 1946 阅读 · 0 评论 -
DL06-卷积神经网络CNN经典模型整理
题目:深度学习方法(五):卷积神经网络CNN经典模型整理Lenet,Alexnet,Googlenet,VGG,Deep Residual Learning 作者:Bin 来源:http://blog.csdn.net/xbinworld/article/details/45619685本文出自Bin的专栏blog.csdn.net/xbinworld转载 2018-01-06 18:41:45 · 3611 阅读 · 0 评论 -
DL03-机器学习中文文档
Python: https://wiki.woodpecker.org.cn/moin/PP3eD Sklearn: http://sklearn.apachecn.org/cn/0.19.0/ TensorFlow: http://www.tensorfly.cn/home/ http://cwiki.apachecn.org/pages/viewpage.action?pageId...原创 2017-12-28 21:55:34 · 374 阅读 · 1 评论 -
DM06-时序概念思维导向图
最近在参加一个比赛,涉及到时序相关内容,把之前学习的概念进行一个初步总结。原创 2018-02-03 11:06:21 · 302 阅读 · 0 评论 -
NLP16-总结之一[dict,tfidf,word2vec,关键词,simhash]
一, 介绍Nlp使用有一段时间了,代码写得总是写得有点凌乱,想总结一下: 1. 在使用时,希望这个是单例,python的单例实现; 2. 通过cmdline来控制; 3 在一个类中有一些加载数据,加载词典及模型的功能。 3.1 构建一个语料词典; 3.2 训练tfidf模型及基于它的关键词抽取; 3.3 训练word2vec及基于它的相关词汇的提取;原创 2018-01-20 22:25:26 · 1460 阅读 · 0 评论 -
DL10--TensorFlow的55个经典案例
转自:https://mp.weixin.qq.com/s/Qdo1vks94tbGkzXEiuQV7w导语:本文是TensorFlow实现流行机器学习算法的教程汇集,目标是让读者可以轻松通过清晰简明的案例深入了解 TensorFlow。这些案例适合那些想要实现一些 TensorFlow 案例的初学者。本教程包含还包含笔记和带有注解的代码。第一步:给TF新手的教程指南1:tf初学者需...转载 2018-02-27 13:58:42 · 313 阅读 · 0 评论 -
Apriori算法
http://blog.csdn.net/lizhengnanhua/article/details/9061755一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;...原创 2014-12-15 12:56:45 · 196 阅读 · 0 评论