![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 78
`AllureLove
这个作者很懒,什么都没留下…
展开
-
决策树、GBDT、XGBOOST树的可视化、模型特征重要性
已训练好的模型树结构可视化原创 2022-08-03 09:55:16 · 1016 阅读 · 0 评论 -
深度学习与人类语言处理学习笔记(一)—— 语音识别(理论篇)
文章目录1. 语音识别概述1.1 Token的表示1.2 Acoustic Feature2. 语音识别深度学习模型2.1 Listen,Attend,and Spell(LAS)2.2 CTC2.3 RNN-T2.4 Neural Transducer2.5 MoChA3. 语音识别传统模型3.1 隐马尔可夫模型3.2 Tandem3.3 DNN-HMM Hybrid4. alignmentB站地址:深度学习与人类语言处理人类语言包含了语音(audio)和文字(text)两种形式。因此语音和文字的处原创 2021-10-14 16:53:44 · 4224 阅读 · 0 评论 -
机器学习之XGboost
文章目录1. 基本概念2. XGboost实战2.1 梯度提升树2.1.1 重要参数:n_estimators2.1.2 重要参数:subsample2.1.3 重要参数:eta2.2 XGBoost进阶2.2.1 选择弱评估器:重要参数booster2.2.2 目标函数:重要参数objective1. 基本概念TO DO…2. XGboost实战基本库的安装与出参数详情xgbbost库的安装:# windows pip install xgboostpip install --upgrad原创 2021-08-01 21:55:17 · 750 阅读 · 2 评论 -
pandas模块之数据集整合成csv及读取操作
整合成csvimport pandas as pdfrom sklearn.model_selection import cross_val_scorefrom sklearn.preprocessing import LabelEncoderfrom sklearn.linear_model import LogisticRegression as LRdf = pd.DataFrame()df["特征1"] = List1 # (存放样本特征1的列表)df["特征2"] = List.原创 2021-07-02 19:57:39 · 285 阅读 · 0 评论 -
文本批量处理并通过TF-IDF算法转换成特征矩阵
文章目录1. TF-IDF概述2. sklearn实现1. TF-IDF概述TF-IDF(词频-逆向文件频率),主要计算过程为:词语由ttt表示,文档由DDD表示,词频TF(t,d)TF(t,d)TF(t,d)是词语ttt在文档DDD中出现的次数,其中:TF(t,d)=t在D中出现的次数/文档D中总词数TF(t,d)=t在D中出现的次数/文档D中总词数TF(t,d)=t在D中出现的次数/文档D中总词数 IDF(t,D)=log语料库文档总数+1包含词语的文档的个数+1IDF(t,D)=log\frac原创 2021-06-28 19:12:19 · 1777 阅读 · 0 评论 -
机器学习之随机森林(Random Forest)
文章目录1. 随机森林概念2. 随机森林实操2.1 随机森林分类及调参2.2 随机森林回归2.3 利用随机森林填补缺失值1. 随机森林概念随机森林和随机有放回的采样(Bagging)息息相关,是从原始样本中进行m次随机有放回地提取n个样本,为了降低异常值的影响,从n个样本中选取一定比例的随机样本,并且选取其中的b个特征用于构建模型,建立基于决策树的m个分类器:#mermaid-svg-jK2qkLf2lvYbQQ2F .label{font-family:'trebuchet ms', verdana原创 2021-06-20 14:47:40 · 1766 阅读 · 0 评论 -
机器学习之决策树(Decision Tree)
文章目录1. 决策树概念2. 决策树实操2.1 决策树多分类2.2 决策树回归2.3 决策树调参案例(Tatanic)1. 决策树概念决策树是根据特征进行树的构造,主要内容如下:通过属性构造节点:(1)二元属性#mermaid-svg-5oCGWpPERyBOfdNk .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#merma原创 2021-06-19 22:47:28 · 605 阅读 · 3 评论 -
机器学习之数据预处理&特征选择
文章目录1. 数据预处理1.1 数据无量纲化1.1.1 数据归一化1.1.2 数据标准化1.2 缺失值处理1.3 处理分类类型特征:编码与哑变量1.4 处理连续型特征:二值化与分段2. 特征选择2.1 过滤法2.1.1 方差过滤2.1.2 相关性过滤2.1.2.1 卡方过滤在机器学习过程中,数据预处理和特征工程十分重要。数据不给力,再高级的算法都没有用。依旧是根据菜菜的视频做的笔记。1. 数据预处理1.1 数据无量纲化数据的无量纲化指的是样本特征的量纲不同时会导致不同的特征对结果的影响程度差异很大,原创 2021-06-19 21:38:32 · 3777 阅读 · 1 评论 -
多分类模型roc-auc的计算以及precision、recall、accuracy等的计算
在已经设置好模型的基础上,roc-auc的计算:# 预测概率y_score = log_model.predict_proba(X_test)# 对真实值进行二进制处理n_classes = 6y_binary = label_binarize(y_test, np.arange(n_classes))fpr, tpr, thresholds = fpr, tpr, thresholds = metrics.roc_curve(y_one_hot.ravel(), y_score.ravel()原创 2021-06-16 16:41:30 · 2121 阅读 · 0 评论 -
机器学习之降维算法:主成分分析(PCA)
文章目录1. PCA理论1.1 高维样本均值和方差表示1.2 最大投影方差&最小重构距离2. PCA实操2.1 重要参数n_components2.1.1 高维数据的可视化特征分布2.1.2 其他方式选取n_components2.2 参数svd_solver&random_state2.3 重要属性components_2.4 重要接口inverse_transform2.5 用PCA做噪音过滤2.6 实战:手写数据集降维1. PCA理论解决过拟合问题常见思路:增加训练处理数据、加入正原创 2021-06-11 19:13:54 · 698 阅读 · 2 评论 -
机器学习之调参的基本思想
文章目录一、调参基本思想二、随机森林调参实战1. 学习曲线调参2. 网格搜索调参一、调参基本思想本系列文章都是根据菜菜大神的视频编写:机器学习实战泛化误差和模型复杂度之间的关系:模型调参是机器学习中的重要内容,那么为什么要进行模型调参数?模型太简单或太复杂都会让模型的泛化误差高,因此要寻求平衡点;模型太复杂会过拟合,模型太简单会欠拟合在模型参数很多时,需要采用网格搜索进行调参数。但是并不是每个参数对模型的影响都很大,如果对所有的参数都进行调整,不一定会得到最优的结果,只会是一个相对平均原创 2021-05-29 23:42:03 · 523 阅读 · 0 评论 -
机器学习之逻辑回归(Logistic Regression)
逻辑回归一、逻辑回归理论概述二、sklearn逻辑回归的使用1. 正则化参数2. 特征工程:embedded3. 梯度下降:重要参数max_iter4. 二元回归和多元回归重要参数:solver和multi-class5. 样本不平衡与参数class_weight三、案例:用逻辑回归制作评分卡1. 数据预处理1.1 处理缺失值1.2 处理异常值1.3 样本不均衡问题1.4 训练集和测试集的划分2. 分箱2.1 等频分箱2.2 定义WOE和IV函数2.3 卡方检验,合并箱体,画出IV曲线笔记参考自B站的两原创 2021-05-28 20:58:28 · 1010 阅读 · 0 评论