机器学习
文章平均质量分 64
dzysunshine
爱打篮球,爱跑步,爱学算法
展开
-
算法梳理之LightGBM
文章目录1 LightGBM原理1.1 GBDT和 LightGBM对比1.2 LightGBM 的动机1.3 Xgboost 原理1.4 LightGBM 优化2 lightGBM代码2.1 基础代码2.2 模板代码2.3 lightGBM 和 xgboost 的代码比较3 lightGBM调参3.1 参数3.2 调参4 lightGBM的坑4.1 设置提前停止4.2 自动处理类别特征4.3 自...原创 2019-01-10 15:27:42 · 2161 阅读 · 0 评论 -
算法梳理之GBDT
1.前向分布算法原创 2019-01-05 19:50:27 · 423 阅读 · 0 评论 -
算法梳理之XGB
1.CART树1.1原理所谓CART,也就是Classification And Regression Tree是决策树的一种,并且是非常重要的决策树。CART算法既可以用于创建分类树,也可以用于创建回归树。两者在建树的过程稍有差异。创建分类树的递归过程中:CART每次都选择当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽...原创 2019-01-08 13:21:38 · 2535 阅读 · 0 评论 -
算法梳理之随机森林
1.集成学习与个体学习个体学习器:通常是由一个现有的学习算法从训练数据中产生,例如C4.5决策树算法,BP神经网络算法等。集成学习:通过构建并结合多个学习器来完成学习任务,根据包含的学习器的类型又分为同质集成和异质集成。同质集成:只包含同种类型的个体学习器,只有同质集成中的个体学习器可称为“基学习器”,相应的学习算法成为“基学习算法”。(“决策树集成中”全是决策树,“神经网络集成中”全是神经...原创 2019-01-04 15:52:35 · 586 阅读 · 0 评论 -
KNN近邻法
#KNN近邻法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是...原创 2018-10-09 15:36:19 · 484 阅读 · 0 评论 -
迁移学习相关总结
文章目录1. 迁移学习的概念2. 迁移学习的研究领域3. 迁移学习的基本知识3.1 领域3.2 任务根据迁移学习简明手册对迁移学习的相关知识进行简单的总结。1. 迁移学习的概念1.1 迁移学习的核心首先应当明确迁移学习的核心问题,就是找到新问题和原问题之间的相似性,才可以顺利地实现知识的迁移。1.2 迁移学习的目的可以有效解决大数据情景下传统机器学习无法解决的四个问题:大数据与少标...原创 2021-03-17 14:19:38 · 2050 阅读 · 0 评论 -
机器学习之问题建模(一)
1. 问题建模原创 2019-04-19 21:33:28 · 1989 阅读 · 0 评论 -
CatBoost
文章目录1.CatBoost是什么?2.CatBoost有哪些优点?3.CatBoost实例展示4.参考1.CatBoost是什么?CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Gradient Boosting(梯度提升) + Categorical Features(类别型特征),也是基于梯度提升决策树的机器学习框架。一个超级简单并且又极其实用的boosti...原创 2019-05-09 15:45:38 · 2025 阅读 · 0 评论 -
SQL中Where与Having的区别
“Where” 是一个约束声明,使用Where来约束来之数据库的数据,Where是在结果返回之前起作用的,且Where中不能使用聚合函数。“Having”是一个过滤声明,是在查询返回结果集以后对查询结果进行的过滤操作,在Having中可以使用聚合函数。在说区别之前,得先介绍GROUP BY这个子句,而在说GROUP子句前,又得先说说“聚合函数”——SQL语言中一种特殊的函数。例如SUM, CO...原创 2019-05-17 18:21:44 · 2233 阅读 · 2 评论 -
机器学习之特征工程(二)
文章目录1. 特征工程思维导图2. 特征提取2.1 探索性数据分析2.2 数值特征2.3 类别特征2.4 时间特征2.5 空间特征2.6 文本特征3. 特征选择3.1 过滤方法3.2 封装方法3.3 嵌入方法参考1. 特征工程思维导图在机器学习应用中,特征工程扮演重要的角色,可以说特征工程时机器学习应用的基础。我们都知道,数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已...原创 2019-04-20 17:17:47 · 1176 阅读 · 0 评论 -
SMOTE算法代码实现
类别不平衡问题类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。类别不平衡问题在很多场景中存在,例如欺诈检测,风控识...原创 2019-04-05 19:38:16 · 12467 阅读 · 0 评论 -
逻辑回归详解
逻辑回归是个看似简单又在面试中常常被问到的机器学习算法,虽然表面上看起来很简单,容易掌握,但真正问到细节时卡住,在某些点上还是容易卡住的。所以,给大家的建议是在面试时,如果面试官让你说一个自己最精通的机器学习算法,那么建议大家不要直接说自己精通逻辑回归,因为十分容易被问到,从而减分。推荐大家将 SVM 算法作为自己的第一个算法去讲解,因为 SVM 没有那么多小细节,只要掌握了就不容易掉坑里。下...原创 2019-03-26 17:14:46 · 2575 阅读 · 0 评论 -
GridSearchCV( )参数详情
GridSearchCV()是sklearn中的一个函数,专门调试参数的函数grid_search.各个参数的含义:class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, v...原创 2019-03-22 16:26:10 · 9574 阅读 · 3 评论 -
模型融合之stacking和blending
1.stacking上半部分是用一个基础模型进行5折交叉验证,如:用XGBoost作为基础模型Model1,5折交叉验证就是先拿出四折作为training data,另外一折作为testing data。注意:在stacking中此部分数据会用到整个traing set。如:假设我们整个training set包含10000行数据,testing set包含2500行数据,那么每一次交叉验证其...原创 2019-03-25 11:51:09 · 842 阅读 · 0 评论 -
特征工程总结与学习
文章目录1. 机器学习流程2.数值型数据2.1 标量、向量和空间2.2 处理计数2.3 对数变换2.4 特征缩放/归一化2.5 交互特征2.6 特征选择特征:原始数据某个方面的一种表示形式,是数据和模型之间的重要的纽带。特征工程:是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。1. 机器学习流程数据:是对现实世界的现象的观测。统计中通常对数据有以下几种描述:错误数据,冗余数...原创 2019-05-09 23:28:54 · 2221 阅读 · 7 评论 -
海量高维数据与纬度约减
文章目录1.为什么要数据降维?2.为什么能数据降维?3.SVD(奇异值分解)4.SVD进行降维5.SVD降维的特点6.CUR分解1.为什么要数据降维?海量数据太大,不得不降维可以使简单的模型运算的更快,更容易理解,更容易维护优质的降维数据可以在使用不是最优的模型参数的情况下得到不错的预测结果2.为什么能数据降维?可以假设,数据实际上是存在或者靠近一个低维子空间中,子空间的坐标轴能...原创 2019-05-07 17:22:56 · 436 阅读 · 0 评论 -
生成模型VS判别模型
文章目录参考参考https://www.cnblogs.com/xiaoshayu520ly/p/9079435.htmlhttps://blog.csdn.net/dulingtingzi/article/details/80267726https://blog.csdn.net/u010358304/article/details/79748153原创 2019-05-08 09:11:52 · 352 阅读 · 0 评论 -
电商标题相似度匹配
文章目录1. TF-IDF2. 余弦相似度3. tf-idf任务4. word2vec1. TF-IDF代码示例#导入计算TF-IDF所需要的包import jiebafrom gensim import corporafrom gensim import models#现在以demo_txt为例demo_txt = ["Apple iPhone 8 Plus (A186...原创 2019-05-17 16:55:16 · 2781 阅读 · 1 评论 -
XGBoot参数调优代码详解
文章目录1. 加载需要用到的库2. 加载数据3. 写一个大的函数完成以下的功能4. 对于高的学习率找到最合适的estimators个数5. max_depth 和 min_child_weight调参5.1 粗调5.2 细调6. gamma参数调优7. 调整subsample 和 colsample_bytree 参数8. 正则化参数调优9. 降低学习率1. 加载需要用到的库import pa...原创 2019-06-12 20:20:10 · 4297 阅读 · 0 评论 -
LightGBM参数调优代码详解
文章目录1.总体调参思路2. 学习率和估计器及数目2. max_depth 和 num_leaves3. min_data_in_leaf 和 min_sum_hessian_in_leaf4. feature_fraction 和 bagging_fraction5. 正则化参数6. 降低learning_rate1.总体调参思路对于基于决策树的模型,调参的方法都是大同小异。一般都需要如下步...原创 2019-06-15 17:30:45 · 25369 阅读 · 4 评论 -
Leetcode重点题
文章目录1. 动态规划1.1 最小路径和(64)1.2 最大子序和(53)1.3 编辑距离(72)2. 排序查找2.1 搜索二维矩阵(74)2.2 寻找两个有序数组的中位数(4)2.3 颜色分类(荷兰国旗)3. 图搜索4. 数组5. 字符串6. 链表7. 树1. 动态规划1.1 最小路径和(64)给定一个包含非负整数的 m x n 网格,请找出一条从左上角到右下角的路径,使得路径上的数字总和...原创 2019-07-21 23:00:59 · 268 阅读 · 0 评论 -
Xgboost版本对比(原生版与sklearn接口版)
文章目录1. 分别使用两个版本对同一个数据集进行测试1.1 数据集的准备1.2 用两个版本设定相同的参数,对数据集进行训练1.3 将评估结果打印出来2. 两个版本的区别参考看过别人使用Xgboost会发现它是由有两个版本的,分别是xgboost的python版本有原生版本和为了与sklearn相适应的sklearn接口版本,现在就简单总结下二者的区别。这里放上Xgboost中文文档,以及XGB...原创 2019-08-21 18:17:31 · 5518 阅读 · 0 评论 -
深入浅出机器学习技法(二):对偶支持向量机(DSVM)
对偶支持向量机(DSVM)引自红色石头的博客原创 2018-10-19 14:12:57 · 315 阅读 · 0 评论 -
数据挖掘相关代码实践
1. 导包import numpy as npimport pandas as pdimport seaborn as sns (数据可视化)import matplotlib.pyplot as plt%matplotlib inline2.数据加载可以简单分为两种情况:当数据在根目录下:train = pd.read_scv(‘train.csv’,encoding=‘g...原创 2019-03-19 23:46:42 · 2931 阅读 · 0 评论 -
天池学习记录(一)
天池学习记录——O2O优惠券使用预测赛题[1]原创 2018-10-26 20:09:18 · 693 阅读 · 0 评论 -
pandas中read_csv的缺失值处理
今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。看pandas文档中read_csv函数中这两个参数的描述,默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#...原创 2018-10-26 18:11:21 · 10845 阅读 · 0 评论 -
Git简洁教程:本地项目如何与GitHub互连
Git简洁教程引自红色石头AI有道使用Git的三个简单规则引自红色石头AI有道原创 2018-10-17 17:15:16 · 167 阅读 · 0 评论 -
深入浅出机器学习技法(三):核支持向量机(KSVM)
核支持向量机(KSVM)原创 2018-10-22 14:43:56 · 1855 阅读 · 0 评论 -
pandas的用法
pandas的用法转自liufang0001的博客原创 2018-10-16 21:12:50 · 128 阅读 · 0 评论 -
深入浅出机器学习技法(一):线性支持向量机(LSVM)
线性支持向量机引自红色石头的博客原创 2018-10-19 14:10:33 · 3529 阅读 · 0 评论 -
PLA算法(感知机)
1.PLA算法的原理感知机模型是机器学习二分类问题中的一种非常简单的模型,下面给出两种简单的实现方法,一种是Naive PLA,另一种为Pocket PLA。Naive PLA主要是针对数据是完全线性可分的,没有任何噪音干扰,它只要找到一个符合条件的解就会结束循环。Navie PLA缺点:1.很明显Navie PLA要求训练集必须是完全线性可分的,否则,它将无限循环下去。2.我们并不...原创 2018-10-10 13:33:38 · 2574 阅读 · 0 评论 -
numpy的用法
numpy的用法转自陌路风流的博客原创 2018-10-16 20:53:46 · 106 阅读 · 0 评论 -
Logistic回归
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。Logistic回归的一般过程(1) 收集数据:采用任意方法收集数据。(2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。...原创 2018-10-16 18:13:48 · 178 阅读 · 0 评论 -
python之datetime模块
datetime模块用于是date和time模块的合集,datetime有两个常量,MAXYEAR和MINYEAR,分别是9999和1.datetime模块定义了5个类,分别是1.datetime.date:表示日期的类2.datetime.datetime:表示日期时间的类3.datetime.time:表示时间的类4.datetime.timedelta:表示时间间隔,即两个时间点的...原创 2018-10-26 20:30:01 · 115 阅读 · 0 评论 -
pandas之get_dummies
我理解get_dummies是将拥有不同值的变量转换为0/1数值。打个比方,小明有黄、红、蓝三种颜色的帽子,小明今天戴黄色帽子用1表示,红色帽子用2表示,蓝色帽子用3表示。但1、2、3数值大小本身是没有意义的,只是用于区分帽子的颜色,因此在实际分析时,需要将1、2、3转化为0、1,如下代码所示:import pandas as pdxiaoming=pd.DataFrame([1,2,3],i...原创 2018-10-26 20:50:06 · 398 阅读 · 0 评论 -
牛客网_剑指Offer_Python实现
牛客网_剑指Offer_Python实现原创 2018-10-31 20:43:18 · 374 阅读 · 0 评论 -
数据预处理之独热编码
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码复...原创 2019-03-19 16:02:37 · 2107 阅读 · 0 评论 -
sklearn0.19中文文档
sklearn0.19中文文档原创 2019-01-19 13:54:06 · 685 阅读 · 0 评论 -
Python Cheat Sheet 中文版
原创 2019-01-19 11:56:16 · 4497 阅读 · 0 评论 -
Leetcode打卡目录
Leetcode打卡目录摘自小詹学Python原创 2018-11-02 20:36:06 · 281 阅读 · 0 评论