数据挖掘
春风吹23
这个作者很懒,什么都没留下…
展开
-
中文文本关键词抽取的三种方法-python
利用Python实现中文文本关键词抽取的三种方法文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取,以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中,发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子,代码和步骤也比较简单,但是采用Word2转载 2020-07-22 22:52:23 · 21448 阅读 · 5 评论 -
pandas相关系数-DataFrame.corr()参数详解-针对数值特征和类别特征
DataFrame.corr(method='pearson',min_periods=1)参数说明:method:可选值为{‘pearson’, ‘kendall’, ‘spearman’}pearson:Pearson相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。kendall:用于反映...原创 2020-05-12 11:01:11 · 5594 阅读 · 4 评论 -
什么是ROC和AUC?一文给你讲明白
原文链接:https://www.cnblogs.com/gatherstars/p/6084696.htmlROC曲线与AUC值本文根据以下文章整理而成,链接:(1)http://blog.csdn.net/ice110956/article/details/20288239(2)http://blog.csdn.net/chjjunking/article/details/59331051.概述 AUC(Area Under roc Curve)是一种用来度量分类模型好坏.原创 2020-05-10 18:16:08 · 17699 阅读 · 1 评论 -
最通俗易懂的p value讲解
什么是p value?这个问题,曾一度让我怀疑我根本都没有学懂知识,只是像规则一样记住然后胡乱使用而已。此番记录就当再次考验我是否真正理解到p value的含义。p value,代表在原假设条件下,实验事件可能发生的概率。举例说明:抛一枚硬币,正面朝上和反面朝上的概率是一样的,各50%,但这是有前提条件的,即硬币是均匀的(原假设),才能保证正反面出现的概率相同。现在将该硬币抛掷5次,那么在...转载 2020-04-22 00:26:35 · 6938 阅读 · 0 评论 -
数据挖掘模型融合—Stacking
上半部分是用一个基础模型进行5折交叉验证,如:用XGBoost作为基础模型Model1,5折交叉验证就是先拿出四折作为training data,另外一折作为testing data。注意:在stacking中此部分数据会用到整个traing set。如:假设我们整个training set包含10000行数据,testing set包含2500行数据,那么每一次交叉验证其实就是对trainin...原创 2020-04-04 13:09:54 · 319 阅读 · 0 评论 -
Quantile Quantile Plot----QQ图
QQ图是统计学一种常用的图,但是今天上网查了一下竟然一下子没找到讲解的非常好的资料,一番搜索后发现了下面这篇文章,直观易懂,点赞点赞,特此转载。原文地址 添加链接描述...转载 2020-04-03 13:03:35 · 5619 阅读 · 0 评论 -
贝叶斯调参原理总结
调参3大方法超参数优化基本分为三类:网格搜索,随机搜索和贝叶斯调参其中网格搜索是最常用的调参方法,网格搜索使用穷举法,穷举参数组合然后进行建模找到最佳参数,然而此方法有一个缺点----十分耗时.贝叶斯调参,在kaggle和天池的比赛中看到使用这种方法.据说贝叶斯调参耗时少,而且结果也不错,在kaggle等比赛中,越来越多的选手开始使用. 但是该方法也有一定的缺点,接下来对贝叶斯调参的优缺点...原创 2020-04-01 17:07:24 · 5935 阅读 · 0 评论 -
L1正则和L2正则
L1正则与L2正则的比较与分析L1正则与L2正则的解释正则化L1与L2的区别L1\L2为什么容易得到稀疏解这篇文章太棒了!解释的很清楚,而且关联了贝叶斯分类器,醍醐灌顶!!!...转载 2020-04-01 13:00:26 · 377 阅读 · 0 评论 -
数据分箱的常用方法
假设要将某个自变量的观测值分为k个分箱,一些常用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。(2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。(3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保...转载 2020-03-29 21:28:13 · 6920 阅读 · 0 评论