![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 89
小白掌柜
Atypical programmer
展开
-
跟着Datawhale打一场时序比赛(SEED新能源赛道-电动汽车充电站充电需求预测)之打卡笔记一
时序学习、新能源需求预测比赛原创 2023-10-16 20:51:39 · 656 阅读 · 1 评论 -
“利用ARIMA模型对时间序列进行分析的经典案例(详细代码)”一文中会遇到的问题总结(二)
最近又有好些朋友来咨询掌柜关于使用ARIMA模型对时间序列进行预测的????这篇博客 中遇到了一些问题,这里掌柜再次收集大家的问题来一一解答。PS: 本博客假定大家已经具备ARIMA模型的基础知识!!!问题汇总如下:怎么判断我的数据是否适合ARIMA模型呢?得到的时序预测图是负值,明显不对。怎样保证为正值?想要最后预测的数据,而不是预测的平稳数据,怎么拿到?想获取预测点的值应该怎么做的,没有API接口呀,可以告知一下吗?不需要做ADF检验吗?怎么确定ARMA的最优模型?还原到原始时间序列原创 2021-11-24 17:39:37 · 6676 阅读 · 5 评论 -
三一数据应用大赛之逾期风控预测比赛的总结
前段时间参加了三一的这个逾期风控预测比赛(以下简称“风控”),今天看私榜成绩发现居然还提升了27名!????(虽然依然菜的一批????,离入围决赛差了0.03。。。)不过有进步就还是很惊喜!因为公榜还只是64名????。现在对整个比赛进行一个回顾。(PS: 由于官方保密规则,这里不会提供原始数据, 谢谢理解!)(PPS:这里主要是思路的整理,欢迎大佬分享更优的思路或解法;如果发现有错误的地方,欢迎指出。 ????)比赛整个流程????:1. 明确赛题任务2. 数据清洗3. EDA数据探索4原创 2021-07-02 16:50:13 · 493 阅读 · 6 评论 -
TypeError: fit_transform() takes 2 positional arguments but 3 were given的解决办法
今天在用ColumnTransformer方法对数值变量和非数值变量进行合成转换的时候,掌柜选择对其中的类别特征用LabelEncoder()方法,结果出现报错如上????。但是换成OneHotEncoder(独热编码)就成功运行。于是疑惑 为什么会出现这样的情况? 一搜发现Stackoverflow上面也有同样疑问的朋友,结合两位答主回答:发现两个主要的原因为什么不适合用LabelEncoder():因为LabelEncoder()的transformer是用来编码目标变量(y)(可参见官方原创 2020-08-20 20:38:47 · 19590 阅读 · 0 评论 -
记录一次关于 No module named“ xgboost“的排错过程以及另类解决办法
还记得之前掌柜不是刚刚安装了Jupyter notebook来远程访问,解决了本地容易出现Jupyter安装包环境冲突的问题。然后今天运行一个预测模型的时候用到了Xgboost这个,就华丽丽地报错 “没有Xgboost模块包?于是一查发现,拉取的Datascience-notebook镜像确实没有Xgboost包。。。这就尴尬了,既然缺少了,那么就安装Xgboost即可解决。但是,重点来了,一开始掌柜去终端安装了Xgboost:看上面显示的也是成功安装Xgboost,但是当掌柜重新运行刚刚的程序时,原创 2020-08-18 20:31:28 · 8335 阅读 · 11 评论 -
使用OneHotEncoder进行类别变量转换的时候出现 Could not convert string to float: ‘b‘ 的解决办法
今天在进行数据预处理的类别变量转换时,报错:掌柜就觉得奇怪了,明明看官方文档说的是可以对类别变量进行转换的:而且示例也是可以的:再往下一看发现这里有一排斜体的小字:在0.20版本中修改过...原创 2020-07-22 19:50:17 · 2303 阅读 · 0 评论 -
如何用sklearn工具包里面的feature_selection模块来进行特征选择/降维(二)
(接上篇)1.13.3. 递归特征消除给定一个对特征进行权重分配的外部评估器(比如线性模型里面的系数),递归特征消除(RFE)法会通过递归考虑越来越少的特征集来进行特征选择。首先,在初始化的特征集上面已经训练好的评估器要么通过coef_属性,要么通过feature_importances_属性获取每个特征的重要性。接着,最不重要的特征将从当前特征集中删除。然后会在修剪集(即刚才删除最不重要特征后的数据集)上递归地重复这个过程直到最终达到所需要的特征数量。RFECV则以交叉验证循环的方式执行RFE来翻译 2020-07-13 20:00:20 · 362 阅读 · 0 评论 -
双峰偏态数据如何转变为正态分布数据
最近掌柜遇到这样一组数据,它呈现出双峰偏态形状:大家都知道,在构建模型的时候都尽量要让偏态数据转换为正态分布数据。所以问题又来了?为什么偏态数据要尽量转换为正态分布数据呢?因为很多模型假设数据服从正态分布后,它的样本均值和方差就相互独立,这样就能更好的进行统计推断和假设验证。比如熟悉的线性回归就是假设误差服从正态分布。好了,现在回到这里,刚刚上图显示的是双峰偏态数据,掌柜查阅了一下,发现如果要转换成正态分布形式的话,可以使用Sklearn里面的QuantileTransformer方法。具体使用方原创 2020-07-10 21:11:15 · 13566 阅读 · 8 评论 -
如何用sklearn工具包里面的feature_selection模块来进行特征选择/降维(一)
最近在进行一个练习赛的时候遇到特征处理的问题,于是就在sklearn官网查了一下,发现有专门的一节来讲关于特征选择的,因此打算翻译一下来具体学习。sklearn.feature_selectionPS:翻译如果觉得有问题,请大佬帮忙纠正!谢谢。-----------------------------------------我是一条无感情的分界线--------------------------------------------1.13. Feature selectionsklearn.翻译 2020-06-27 16:55:30 · 1029 阅读 · 0 评论 -
Attribute Error :XGBRegressor object has no attribute XGBReressor的解决办法
刚刚掌柜在进行调参的时候遇到这样的报错:这就奇怪了,明明刚刚Xgboost还能运行,怎么调参就不行了???于是掌柜去搜解决办法,十个有九个都是说因为存在有 xgboost.py命名的文件才导致的。但是掌柜明明才开始用这个,也没建过这样名字的Python文件。但是秉着严谨的精神还是去搜了电脑里面的所有文件,结果并没有找到什么。。。接着又重装了xgboost这个包,但是依然报错如上!正当掌柜要陷入僵局的时候,突然在官网的论坛看到一个类似的疑问,下面有这么一句话:突然想到一个问题,难道是我一开始在第一个程原创 2020-06-18 21:20:37 · 7535 阅读 · 4 评论 -
调用sklearn模型遇到Unknown label type: continuous 的解决办法
调用sklearn模型的时候 报错“Unknown label type: ‘continuous’ “的解决办法刚刚掌柜在进行模型预测的时候遇到这样的报错:为什么会这样呢?掌柜搜过类似问题的解法,发现在StackOverflow上面有个解释的很清楚:原来是因为目标列是真实地数字,不能作为分类问题的标签进行运算。那么问题又来了:为什么不能作为分类标签呢? 再看下面那句话,其实也是sklearn官方文档中地原话:哦,原来在用sklearn做分类任务的时候,y 应该是整数或者字符串型的向量。至此,这原创 2020-06-14 16:35:08 · 52393 阅读 · 15 评论 -
数据分析面试、笔试题汇总+解析(四)
今天解决最后一道题????:把数据集随机划分为训练集和测试集,按8:2的比例。一般会想到用随机划分的方法,即使用sklearn库里面的model_selection模块的train_test_split方法。这里掌柜就直接拿官方的鸢尾花数据集示例来演示一下:这????就是此题的解法(当然,在此环境下该方法是没什么问题的,而且大多数情况下我们也是这么划分数据集的;),但是此方法存在一定的缺点,即在测试集...原创 2020-04-14 00:00:51 · 772 阅读 · 0 评论 -
如何解决报错ValueError: Input contains NaN, infinity or a value too large for dtype('float64')的问题
这两天在做信用卡的数据分析项目,中途出现了除标题错误以外 + (ValueError: Found input variables with inconsistent numbers of samples: [56411, 27785])这两个报错,因为标题字数有限,所以只写了一个。现在我们先解决第一个问题:正如上面报错所写,错误原因就是:输入的数据里面包含NaN值或者无穷大的数据所以解决...原创 2019-10-25 18:21:49 · 83147 阅读 · 3 评论 -
在Win10上通过Anaconda来安装Tensorflow并在Pycharm中进行开发
之所以会开始想用Tensorflow,是因为之前用常规的验证码破解方法觉得有些繁琐,要把字符都切割成单个再一一识别。于是想有没有方法可以直接一整张图片来识别的,上谷歌一搜就发现还真有!于是打算再尝试用机器学习的方法来破解验证码。废话不多说,首先我们来安装Tensorflow这个框架。系统:Windows10安装工具:Anaconda3开发环境:Pycharm3.5.6Tensorflow版...原创 2019-05-28 21:04:04 · 1481 阅读 · 0 评论