机器学习
文章平均质量分 91
约定写代码
虽然8年前开始学习更好,但今天开始学习,总要好过明天再开始。
展开
-
EM算应用:两硬币、三硬币
EM算法,三硬币,两硬币参数θπpqθπpqπpq\pi,p,qπpq分别表示硬币A,B,C是正面的概率。观测到了n次投掷结果,记为Yy1y2ynYy1y2...yn,每次投掷10次,yi∈010yi∈010,表示本次试验中硬币正面朝上的次数隐变量设为Zz1z2znZz1z2...znzi1z_i=1zi1表示硬币A正面朝上,将选择硬币B投掷;原创 2023-03-05 23:44:45 · 1015 阅读 · 1 评论 -
几个算法比较
多种机器学习算法模型、策略、算法比较图原创 2023-01-26 04:36:47 · 882 阅读 · 0 评论 -
从决策树到xgboost(二)
文章目录3 集成学习4 Adaboost4.1 Adaboost算法5 提升决策树BDT6 梯度提升决策树GBDT7 极限梯度提升XGboost3 集成学习所谓集成学习,是指构建多个分类器(弱分类器)对数据集进行预测,然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”,或一个公司董事会上的各董事投票决策,它要求每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”。集成学习根据各个弱分类器之间有无依赖关系,分为Boosting和Bagging两大流原创 2022-03-25 11:01:06 · 1692 阅读 · 0 评论 -
从决策树到xgboost(一)
文章目录1 决策树1.1决策树定义1.2信息增益1.3 信息增益的算法1.4 信息增益比2 决策树ID32.1 ID3树的构建2.2 决策树的剪枝2.2.1 损失函数定义与计算2.2.2 剪枝过程1 决策树1.1决策树定义决策树的基本组成:决策节点、分支、叶子。决策树表示给定特征条件下的概率分布。条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元。并在每个单元上定义一个类的概率分布,就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树的本质是在特征空间原创 2022-03-20 17:35:54 · 1116 阅读 · 0 评论 -
第三课 SVM(2)
1 线性可分的数据集1.1 超平面SVM的思想是找到最大间隔的分隔超平面。在两个分类中,找到能够一条线,以最好地区分这两个分类。这样如果有了新的点,这条线也能很好地做出分类。这样的线在高维样本中的时候就叫做超平面。1.2 几何间隔与函数间隔图中绿线h1效果不好,h2效果还行,h3效果最好。怎么区分效果好不好?如果超平面w.x+b=0w.x+b=0w.x+b=0已经存在,那么样本点距离超平面的距离能够表示预测的确信程度。∣w.x+b∣|w.x+b|∣w.x+b∣能够相对地表示点x距离超平面的距原创 2021-10-31 15:17:58 · 197 阅读 · 0 评论 -
mac下pip install 安装只能选择python2.7的问题
mac自带python2.7。我用brew install安装过python3:brew install python3我安装了anaconda3。因为它自带了很多包。所以我无论是用pycharm编程还是jupyter notebook一直都用的是anaconda3带的python。后来发现用pip install 安装的包,在pycharm工程中用不了。更有甚者,有时候用pip install 安装不了,例如allennlp。虽然我可以用pip3 install allennlp安装。但是安装之后发原创 2021-04-16 06:47:11 · 803 阅读 · 0 评论 -
第十章 条件随机场CRF
文章目录1 条件随机场定义1.1 马尔科夫随机场1.1.1 用图模型表示概率1.1.2 局部马尔科夫性1.2 马尔科夫随机场的因子分解1 条件随机场定义1.1 马尔科夫随机场1.1.1 用图模型表示概率图G=(V,E),V表示顶点集合,E表示边的集合。概率图模型表示用图表示概率的分布。可以用无向图G表示联合概率分布P(Y)。Y一定是一个矢量。顶点v∈Vv \in Vv∈V表示一个随机变量YvY_vYv,Y=(Yv)v∈VY = (Y_v)_{v \in V}Y=(Yv)v∈V。边e∈E原创 2021-03-13 08:05:30 · 240 阅读 · 0 评论 -
第九章 隐马尔科夫模型HMM
文章目录1 隐马尔科夫模型定义2 概率计算算法3 学习算法4 预测算法1 隐马尔科夫模型定义隐马尔科夫模型是一个seq2seq模型。例如词性标注。时间序列t1t2t3状态序列代词动词名词观察序列我爱机器学习能够看到的,例如词语是观察序列。看不到的部分是状态序列,例如词性。状态集合:Q=q1,q2,...qNQ={q_1,q_2,...q_N}Q=q1,q2,...qN,∣Q∣=N|Q|=N∣Q∣=N观察集合:V=v1,v2,...vMV={v_原创 2021-02-05 09:34:22 · 316 阅读 · 0 评论 -
第八章xgboost/lightGBM
文章目录1 xgboost1.1 基本用法1.1.1 通用参数1.1.2 集成参数1.1.3 任务参数1.2 例子1 xgboost1.1 基本用法xgboost有三类参数:通用参数、集成参数和任务参数。1.1.1 通用参数booster:可选值gbree、gblinear。默认值是gbree。这是指定用哪种基模型。silent,可选值0,1。默认是0,表示有输出。nthread 线程数1.1.2 集成参数eta 学习率。默认值0.3,范围[0,1]。gamma [default=0,原创 2021-02-02 09:25:47 · 337 阅读 · 0 评论 -
第七章 scikit-learn与机器学习实战
文章目录1 scikit-learn2 一个项目实战1 scikit-learn导航页与算法指南API:数据预处理Preprocessing and Normalization,特征抽取Feature Extraction,特征选择Feature Selection,各种模型:Generalized linear models (GLM) for regression、Naive Bayes,Support Vector Machines、Decision Trees、Clustering,模型调优与原创 2021-01-30 23:37:34 · 444 阅读 · 0 评论 -
第六课 多算法组合与模型调优
本系列是七月算法机器学习课程笔记文章目录1 前序工作流程1.1 数据处理1.2 特征工程1.3 模型选择1.4 交叉验证1.5 寻找最佳超参数2 模型优化2.1 模型状态2.2 权重分析1 前序工作流程1.1 数据处理1.2 特征工程这两部分在第五课已经说明了。1.3 模型选择在sklearn中有关于算法选择的路径图。但也不是绝对的。模型选择有两种含义。第一种是:选择不同算法。当拿到一个问题先看属于这4种类型中的哪一种:分类?回归?聚类?降维?例如搜索结果排序,看上去不是上面的任何一种原创 2021-01-26 09:04:25 · 734 阅读 · 0 评论 -
第五课 机器学习中的特征工程
文章目录1 特征工程与意义2 数据与特征处理2.1数据采集2.2 数据清洗2.3 数据采样2.4 特征处理2.4.1 数值型2.4.2 类别型1 特征工程与意义特征工程做的事情是从数据中抽取出来的,对结果预测有用的信息。特征工程是使用专业背景知识和机器学习技巧处理数据,使得特征能在机器学习算法上发挥更大的作用。要提升机器学习的效果可以有三个途径:1 选择一个合适的模型,模型越简单越好2 编码技能和机器学习技能,能够通过调参提升效果。这个提升效果大概在千分之几的级别。3 了解业务,通过抽取特征提原创 2021-01-21 11:08:37 · 552 阅读 · 0 评论 -
第三课 SVM
本系列是七月算法机器学习课程笔记文章目录1 问题2 key idea 13 key idea 24 key idea 3学习SVM不要先看数学公式,这样把SVM的精华都丢掉了。学习SVM学习作者是如何构建出这样一个算法的过程。1 问题无论线性分类、逻辑回归、决策树都是要找到一个决策边界。但是这个决策边界什么时候最好呢?就像图中这样,答案应该是线条3最好,它的泛化能力更强。那怎么找到这样的一条线呢?2 key idea 1目标是要找到最宽的那条街道(widest street way)。假原创 2021-01-18 08:16:11 · 117 阅读 · 0 评论 -
第二课 决策树与随机森林
本系列是七月算法机器学习课程笔记文章目录1 从LR到决策树1.1 决策树1.2 决策树的终止条件1.3 决策树划分依据2 回归树3 从决策树到随机森林1 从LR到决策树1.1 决策树决策树出现是模仿了人类自己做判断的一个过程。例如一个相亲案例。要考查的数据维度可能有:身高、财富积累、长相、是不是潜力股、品德如何。根据逻辑回归的决策过程是下图这样。计算出的概率高,就去相亲。但是人做决策可能是下面这样。例如年龄>30,不见。年龄<30,长得丑不见。这样的决策过程,简单,逻辑清晰,可原创 2021-01-14 09:40:55 · 550 阅读 · 1 评论 -
第一课 回归问题与应用
1 不同类型的学习机器学习:监督学习、无监督学习、强化学习按照问题类型分:聚类问题:相似用户分析、新闻聚类分类问题(选择题) 情感分类、垃圾邮件、图像内容与识别回归(回答类问题) 房价、票房值、强化学习:研究如何根据环境而行动2 基本术语与概念数据集:训练集、测试集样本=示例=样例特征 属性、属性值属性空间 样本空间特征向量标记 label 输出空间3 线性回归模型3.1 什么是线性回归有监督 学习,输出是连续值假定输入与输出之间是线性关系:f:x->y例原创 2021-01-12 08:53:43 · 566 阅读 · 0 评论 -
线性回归与 logistic回归
线性回归算法方程:hθ(x)=∑i=0nθixi=θTxh_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} xhθ(x)=∑i=0nθixi=θTx损失函数:J(θ0,θ1,…,θn)=12m∑i=1m(hθ(x(i))−y(i))2J\left(\theta_{0}, \theta_{1}, \ldots, \theta_...原创 2020-01-12 09:16:09 · 575 阅读 · 0 评论