数据挖掘
文章平均质量分 72
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
特征工程原理(一)
在机器学习原理中讲过机器学习的基本流程,其中很重要的一个环节就是特征工程。原创 2023-01-05 17:20:09 · 768 阅读 · 0 评论 -
随机森林、极端随机森林以及深度森林代码
之前介绍了随机森林、极端随机森林以及深度森林的原理,本次介绍一下相关的代码本次实验全部使用糖尿病数据集数据导入import pandas as pdtrain = pd.read_csv("/Users/admin/Desktop/database/diabetes/diabetes_train.txt",header=None,index_col=False)test = pd.read_csv("/Users/admin/Desktop/database/diabetes/diabetes_t原创 2020-06-22 16:33:31 · 4080 阅读 · 1 评论 -
从随机森林到极端随机森林,再到深度森林
随机森林再介绍随机森林之前有必要介绍下集成算法的一些理论集成学习算法本身不算一种单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。可以说是集百家之所长,能在机器学习算法中拥有较高的准确率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前常见的集成学习算法主要有2种:基于Bagging的算法和基于Boosting的算法,基于Bagging的代表算法有随机森林,而基于Boosting的代表算法则有Adaboost、GBDT、XGBOOST等。Bagging和Boosting都原创 2020-06-19 17:58:01 · 12919 阅读 · 4 评论 -
python生存分析入门
引入什么是生存分析生存分析是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通过对某一具有相同特质的群体进行数据分析,我们可以得到这类人活过一定时间的概率。这就叫做生存分析。一个人的生存时间长短与许多因素有关,研究各个因素与生存时间有无关系以及关联程度大小,这也是生存分析。推广来说,疾病的复发可以看做“健康期”的生存,机器的故障可以看做“机器”的生存,甚至下岗职工再就业可以看做“失业期”的生存,生存分析可以被推广至很多问题的分析中去。应用场景生存分析最早在生物医学中使用的最多,用来原创 2020-06-03 17:24:19 · 5429 阅读 · 3 评论 -
数据分箱python代码深入解读
之前介绍了分箱的理论:https://blog.csdn.net/Andy_shenzl/article/details/88965169https://blog.csdn.net/Andy_shenzl/article/details/89015772#3.1WOE本次针对卡方分箱的代码进行解释数据集及完整代码:https://github.com/Andyszl/Feature_Engineering/blob/master/卡方分箱.ipynb分箱分箱的定义将连续变量离散化将多状态的原创 2020-06-01 17:43:35 · 2606 阅读 · 1 评论 -
协同过滤算法-简单的python实现demo
概述协同过滤(collaborative filtering)是推荐算法里面最经典也是最常用的。该算法通过分析用户的兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户的喜好程度预测。比如,你现在想看一部电影,但是不知道具体看哪一部,你会怎么做?大部分人会问问周围的朋友,看看他们最近有什么好看的电影可以推荐给自己,而我们一般会倾向于从口味比较类似的朋友那里得到推荐信息。这就是协同过滤的核心思想。要实现协同过滤,需要一下几个步骤:收集用户便好找到相似的用原创 2020-05-26 11:52:31 · 2006 阅读 · 0 评论 -
数据探索分析-EDA
目录一、什么是EDA定义plan二、案例实战1、整体步骤2、实例-python演示1>数据背景2>导入相关的包3>导入数据及数据概览4>变量初探索5>数据切分6>数据质量评估7>变量分析8>数据峰度和偏度8>数据增长变化可视化9>每个变量与目标变量之间的相关性10&...原创 2020-05-07 10:29:49 · 2227 阅读 · 0 评论 -
LDA-线性判别分析原理及实战
LDA,这里的LDA是指Linear Discriminant Analysis,即线性判别分析,不是主题模型的LDA主要是用来进行降维分析的一种方法,在工作学习中用的更多的可能是PCA来降维,LDA跟PCA的区别在于LDA是有监督的一种降维方法。背景为什么要降维呢?这里面涉及到另一个话题,叫维度灾难:http://www.visiondummy.com/2014/04/curse...原创 2020-04-26 14:08:28 · 1601 阅读 · 0 评论 -
item_based之python实战
目录基于物品的协同过滤python实现基于物品的协同过滤PS:为什么不用基于用户的算法1、冷启动问题,新用户没法推荐2、用户量大,计算速度慢,并且稀疏矩阵3、人是善变的,以前喜欢的现在不一定喜欢基于物品的协同过滤优势!计算性能高,通常用户数量远大于物品数量可预先计算保留,物品并不善变python实现基础数据处理,跟之前一样不多说...原创 2019-12-04 18:20:45 · 393 阅读 · 0 评论 -
推荐系统-SVD实战
SVD奇异值分解里具体说了SVD的基本原理解读,本次实战分析SVD的应用目录1、数据导入2、数据简单处理3、构造矩阵4、SVD计算数据:本次数据使用的是用户听音乐的数据,具体数据有需要的可以关注公众号:不懂乱问(Andy_shenzl)后台留言当然可以自己在网上下载。1、数据导入import pandas as pdimport numpy...原创 2019-11-28 18:28:39 · 994 阅读 · 1 评论 -
SVD奇异值分解
目录1、什么是SVDSVD定义SVD作用2、SVD数学知识回顾1. 回顾特征值和特征向量2. SVD的定义3. SVD计算举例1、简单理解2、python计算3、实际运用推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法。由于协同过滤算法不管是基于用户(user...原创 2019-11-27 18:19:02 · 988 阅读 · 0 评论 -
缺失值可视化处理--missingno
数据挖掘-数据预处理之缺失值可视化处理每次处理数据时,缺失值是必须要考虑的问题。但是手工查看每个变量的缺失值是非常麻烦的一件事情。missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集,使您可以快速直观地总结数据集的完整性。我们使用python来进行演练1、首先安装程序包并加载:pip install missingnoimport missing...原创 2018-08-13 20:02:47 · 24937 阅读 · 13 评论 -
聚类分析python画树状图--Plotly(dendrogram)用法解析
1、前言聚类分析是机器学习和数据分析中非常常见的分类方法,当我们用到层次聚类(系统聚类)时,最常用的分析方法就是绘制树状图,比较常见的统计软件像SPSS、SAS、R等都可以直接绘制树状图,比较简单,今天主要介绍下python怎么绘制。2、Plotlypython绘制树状图主要介绍使用Plotly工具(当然也可能有其他方法)2.1 安装Plotlypip insta...原创 2018-08-18 11:55:34 · 35726 阅读 · 3 评论 -
plotly绘制简单图形<1>
之前在《聚类分析python画树状图--Plotly(dendrogram)用法解析》说了plotly的安装注册以及使用,这里说一下plotly的其他使用首先导入相关的包import plotly.graph_objs as go1、绘制散点图:trace=go.Scatter( x=[1,2,3,4,5,6], y=[1,3,5,8,4,7], m...原创 2018-08-22 17:15:45 · 1725 阅读 · 1 评论 -
Adaboost算法及python代码
Adaboost1、算法介绍 AdaBoost是最著名的Boosting族算法,同样也是数据挖掘10大算法之一。是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的...原创 2018-09-02 14:44:46 · 2064 阅读 · 0 评论 -
缺失值处理
缺失值处理之前写过一篇文章缺失值可视化处理–missingno主要介绍了缺失值的查看,今天聊一下,出现了缺失值后我们要做的后续工作,就是缺失值的处理。1、缺失值删除首先附上几个代码data数据集data.isnull()#缺失值判断:是缺失值返回True,否则范围Falsedata.isnull().sum()#缺失值计算:返回每列包含的缺失值的个数data.dropna()#缺失...原创 2018-09-19 11:49:05 · 1325 阅读 · 0 评论 -
数据预处理:变量筛选和变换
变量筛选和变换我们在尽心数据处理中会遇到变量的筛选问题这里我们不是PCA(主成分分析),就是简单的人工变量筛选,比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和变换。1、选择部分变量首先我们看下数据结构定义一个x_col2来存储需要用到的变量名称2、删除部分变量如果我们要用到数据集的大部分数据,我们就可以采取删除其中的几个变量的方法定...原创 2018-09-19 14:21:27 · 3310 阅读 · 0 评论 -
python_KNN_sklearn包实现
之前说了KNN的算法解读,这次说一下代码的实践本人不是专业的python使用者,所以就不按照KNN的算法写推到代码了,直接运用机器学历里面运用得比较多,而且比较简单的sklearn包scikit-learn(简称sklearn)是目前最受欢迎,也是功能最强大的一个用于机器学习的Python库件。它广泛地支持各种分类、聚类以及回归分析方法比如支持向量机、随机森林、DBSCAN等等,由于其强大...原创 2018-09-21 18:31:41 · 7312 阅读 · 0 评论 -
GBDT--提升树算法
今天在说一个Boosting的另一个算法GBDT,之前文章说了Adaboost,Adaboost主要是对分类错误的样本提升权重来进行训练数据,而本次要讲的GBDT主要是根据第一轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小。 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multip...原创 2018-09-22 17:04:41 · 569 阅读 · 0 评论 -
滴滴派单和Uber派单对比
目录 一、滴滴1、滴滴派单主要模式2、参数选取3、模型描述4、评估方案二、Uber1、算法概述2、Uber的算法解读 一、滴滴 1、滴滴派单主要模式业务场景:一个订单被派给多个司机,司机根据自己的喜好选择接受或拒绝目标:最大化一次派单成单率关键问题:estimate the probability of each driver's accep...原创 2019-01-14 20:56:32 · 7339 阅读 · 2 评论 -
pandas-profiling(数据预览分析)
对于探索性数据分析来说,做数据分析前需要先看一下数据的总体概况,pandas_profiling工具可以快速预览数据。1、pandas-profiling安装与调用pip install pandas-profilingimport pandas as pdimport pandas_profiling2、导入数据data=pd.read_csv("model.csv")...原创 2018-08-15 19:25:38 · 28257 阅读 · 12 评论