RuiJie_Wang_-CSDN博客

原创机器学习决策树

参考B站简博士一、信息增益1、信息增益概念熵表示时随机变量不确定性，或：随机变量的取值等概率分布的时候，相应的熵最大。条件熵：当熵和条件熵中的概率有数据估计得到时，则为经验熵和经验条件熵。信息增益：得知特征X而使类Y的信息的不确定性减少的程度。2、信息增益：算法输入：训练集数据集D和特征A输出：特征A对D的信息增益g(D,A)计算经验熵H(D)：计算经验条件熵H(D|A):计算信息增益：...

2022-03-18 14:26:30 1148

原创机器学习 HMM

参考B站手写AI一、中文分词已分好的词 <==> 每个词的状态已分好的词：麻辣肥牛真好吃！每个词的状态：BMME S BE S二、HMM分词训练与预测2.1 HMM之初始矩阵初始矩阵：统计每篇文章（每行）的第一个字是什么状态（一开始统计的数值都是频次）今天天气真不错。麻辣肥牛好吃！我喜欢吃好吃的！以上的三行句子中，第一个字的状态：一二句为B，第三句为S2.2 HMM之状态转移矩阵.

2022-03-09 12:44:54 1385 1

参考B站简博士一、KNN基本概念最近邻（k-Nearest Neighbors, KNN）算法是一种分类算法，该算法的思想是：一个样本与数据集中的k个样本最相似，如果这k个样本中的大多数属于某一个类别，则该样本也属于这个类别。二、距离度量一般使用欧式距离来衡量两个实例点的相似性。Lp距离：欧式距离：曼哈顿距离：切比雪夫距离：三、K值选择如果选择较小的K值，训练误差会减小，但测试误差可能会增大，因为预测结果会对近邻的...

2022-03-07 13:13:14 1940

原创机器学习朴素贝叶斯算法

内容参考于B站简博士的创作。极大似然估计：已知x，判断y的概率：利用后验概率最大化上面的后验概率最大化由先验概率和条件概率组成：先验概率：条件概率：朴素贝叶斯：算法（利用极大似然估计）输入：训练集：示例输出：示例x所属类别y先验概率：每个类别拥有的实例点比上训练数据集中所有实例点的个数。条件概率：当已知实例点属于某个类的时候，看一下该样本的几个特征中，是某个特征的时候概率是多少。后验概率：x属于每个类别的概率。取后验概率最大化，从而找出x...

2022-03-06 18:30:47 1731

原创手把手教利用Bert实现知识库问答（详细注释）

跟着DataFountain学的，加了一些代码注释，DataFountain有数据集，链接：个人工作平台https://work.datafountain.cn/forum?id=121&type=2&source=1一、数据处理1、数据分析数据格式如下：这个题目的意思就是判断Question和Sentence是否匹配，如果匹配label就是1# 统一导入工具包import csvimport transformersimport torchimport warni

2022-03-03 17:42:37 2654

原创机器学习模型融合

模型融合方式：· 均值法Averaging：适用于回归类算法，将每个评估器的输出做平均，类似于Bagging中回归的做法。· 投票法Voting: 适用于分类算法，将每个评估器的输出进行投票，类似于Bagging中分类的做法· 堆叠法Stacking: 使用一个/多个算法在训练集上输出的某种结果作为下一个算法的训练数据。· 改进堆叠法Blending: 一种特殊的stacking, 使用一个/多个算法在验证集上输出的某种结果作为下一个算法的训练数据。一投票法Voting：1 五大

2022-02-09 15:02:13 3455 2

原创 win10利用tensorflow serving(docker安装)部署Bert文本分类模型(tf keras)

利用Tensorflow serving部署tf keras的模型

2022-01-25 11:12:59 2290

原创 Deep Learning

01 Regression (Piecewise Linear Curves)一、Model Bias那么如何解决这个问题？1.Sigmoid（Sigmoid只是一种方法）二、 define loss function1.MSEloss 2.Cross-entropy 三、Optimization ...

2021-10-24 15:24:51 338

wang_rui_j_ie的博客