![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习一小步
黑桃5200
这个作者很懒,什么都没留下…
展开
-
【机器学习面试题】——Apriori
协同过滤推荐有哪些类型基于用户(user-based)的协同过滤基于用户(user-based)的协同过滤主要考虑的是用户和用户之间的相似度,只要找出相似用户喜欢的物品,并预测目标用户对对应物品的评分,就可以找到评分最高的若干个物品推荐给用户。基于项目(item-based)的协同过滤基于项目(item-based)的协同过滤和基于用户的协同过滤类似,只不过这时我们转向找到物品和物...原创 2020-01-15 10:05:42 · 656 阅读 · 0 评论 -
【机器学习面试题】——XGBoost
文章目录1. RFRFRF和GBDTGBDTGBDT的区别2. 比较LRLRLR和GBDTGBDTGBDT,说说什么情景下GBDTGBDTGBDT不如LRLRLR3. 简单介绍一下XGBoostXGBoostXGBoost4. XGBoostXGBoostXGBoost与GBDTGBDTGBDT有什么不同5. XGBoostXGBoostXGBoost为什么可以并行训练6. XGBoostXGBo...原创 2020-01-09 15:54:49 · 757 阅读 · 0 评论 -
【机器学习面试题】——梯度下降
1. 机器学习中为什么需要梯度下降梯度下降的作用:梯度下降是迭代法的一种,可以用于求解最小二乘问题。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。2. 梯度下降法缺点缺点:靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能...原创 2020-01-05 19:32:26 · 3218 阅读 · 0 评论 -
【机器学习面试题】——朴素贝叶斯
文章目录1.简述朴素贝叶斯算法原理和工作流程2. 条件概率、先验概率、后验概率、联合概率、贝叶斯公式的概念3.为什么朴素贝叶斯如此“朴素”?4.什么是贝叶斯决策理论?5.朴素贝叶斯算法的前提假设是什么?6.为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果?7.什么是朴素贝叶斯中的零概率问题?如何解决?8.朴素贝叶斯中概率计算的下溢问题如何解决?9.当数据的属性是连续型变量时...原创 2020-01-04 21:28:55 · 1783 阅读 · 0 评论 -
NLP学习——文本相似度计算
导入模块from gensim.models import Word2Vecimport jiebaimport numpy as npFILE_PATH = "./data/wiki_tiny.txt"MODEL_PATH = 'word_vec.model'读取文件def read_text(FILE_PATH): sentences = [] with op...原创 2020-01-03 16:49:21 · 348 阅读 · 0 评论 -
手推SVM算法(含SMO证明)
函数间隔γ^=y(wTx+b)=yf(x)\hat{\gamma}=y\left(w^{T} x+b\right)=y f(x)γ^=y(wTx+b)=yf(x)几何间隔γ~=yγ^=γ^∥w∥=y(wTx+b)∥w∥\tilde{\gamma}=y \hat{\gamma}=\frac{\hat{\gamma}}{\|w\|} = \frac{y\left(w^{T} x+b\right...原创 2019-04-10 02:12:08 · 1740 阅读 · 0 评论 -
线性模型_类别不平衡问题
文章目录1. 类别不平衡问题2. 类别不平衡的影响3. 处理不平衡数据集的方法3.1 数据层面的方法:重采样技术3.1.1 随机欠采样(Random Under-Sampling)3.1.2 随机过采样(Random Over-Sampling)3.1.3 基于聚类的过采样(Cluster-Based Over Sampling)3.1.4 信息性过采样:合成少数类过采样技术(SMOTE)3.15...原创 2018-12-09 22:27:29 · 472 阅读 · 0 评论 -
机器学习面试题——逻辑回归
Q:逻辑回归在训练的过程当中,如果有很多的特征高度相关或者说有一个特征重复了很多遍,会造成怎样的影响如果在损失函数最终收敛的情况下,其实就算有很多特征高度相关也不会影响分类器的效果。 但是对特征本身来说的话,假设只有一个特征,在不考虑采样的情况下,你现在将它重复 N 遍。训练以后完以后,数据还是这么多,但是这个特征本身重复了 N 遍,实质上将原来的特征分成了 N 份,每一个特征都是原来特征权重值...原创 2018-12-07 16:16:44 · 1200 阅读 · 0 评论 -
Datawhale 算法实战第2期 Task 1.2
Task 1.2XGB和LGB都存在原生接口和sklearn接口,可以查询一些资料,对两种接口都尝试一下代码实现,001号同学使用google的colab,colab教程入口,并且加入了数据不平衡处理,优秀!007号同学利用xgboost对特征的重要性做了一个可视化,棒极了!!!013号同学博客的代码没有颜色 在代码块那里加一个python就好啦print()014号同学,lg...原创 2018-12-13 10:50:44 · 177 阅读 · 0 评论 -
机器学习小目标——Task8
1. 任务【任务八-特征工程2】分别用IV值和随机森林挑选特征,再构建模型,进行模型评估2. 用IV值特征选择2.1 IV值IV的全称是Information Value,中文意思是信息价值,或者信息量2.1.1 IV的计算为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。2.1.2 WOEWOE的全称是“Weight of Ev...原创 2018-11-29 10:01:47 · 257 阅读 · 1 评论 -
机器学习一个小目标——Task7
1. 任务【任务六-模型融合】用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分2. Stacking融合3. 实现代码4. 实验结果...原创 2018-11-26 10:55:39 · 291 阅读 · 1 评论 -
机器学习一个小目标——Task3
任务构建xgboost和lightgbm模型进行预测遇到的问题实现代码XGB#!/usr/bin/env python 3.6#-*- coding:utf-8 -*-# @File : XGBoost.py# @Date : 2018-11-17# @Author : 黑桃# @Software: PyCharm import xgboost as xgbi...原创 2018-11-18 11:07:23 · 2943 阅读 · 0 评论 -
机器学习一个小目标——Task6
@[【任务六-模型调优】使用网格搜索对模型进行调优并采用五折交叉验证的方式进行模型评估原创 2018-11-24 08:24:19 · 318 阅读 · 0 评论 -
机器学习一个小目标——Task5
1. 任务【任务五-特征工程1】关于数据类型转换以及缺失值处理(尝试不同的填充看效果)以及你能借鉴的数据探索2. 遇到的问题2.1 缺失值处理填充固定值data.fillna(0, inplace=True) # 众数填充考虑给某列的缺失值,填充为该列的众数,由于众数可能存在多个,所以pandas返回的是一个Series,而不像mean()返回的是一个值,默认取第一个众数。...原创 2018-11-22 14:52:23 · 322 阅读 · 0 评论 -
机器学习一个小目标——Task1
任务构建逻辑回归模型进行预测(在构建部分数据需要进行缺失值处理和数据类型转换,如果不能处理,可以直接暴力删除)数据集主要问题是根据数据建立一个逻辑回归模型来预测贷款是否逾期。遇到的问题encoding=‘gb18030’,为什么改为utf-8不可以?读取数据时报错data = pd.read_csv(path + ‘data.csv’)‘utf-8’ codec can’t...原创 2018-11-15 12:39:51 · 286 阅读 · 0 评论 -
机器学习一个小目标——Task2
【任务二】构建SVM和决策树模型进行预测【时间】11.16(今天)遇到的问题实现代码数据处理#!/usr/bin/env python 3.6#-*- coding:utf-8 -*-# @File : feature.py# @Date : 2018-11-16# @Author : 黑桃# @Software: PyCharm #!/usr/bin/en...原创 2018-11-16 16:20:06 · 235 阅读 · 0 评论 -
机器学习一个小目标——Task4
任务【模型评估】记录五个模型关于precision,rescore,f1,auc,roc的评分表格,画出auc和roc曲线图遇到难题实验代码实验结果参考文献原创 2018-11-21 08:27:32 · 280 阅读 · 0 评论