机器学习基础算法
qq_43498494
这个作者很懒,什么都没留下…
展开
-
HMM--实践
文章目录HMM理论补充后向算法期望学习算法利用频率估计概率HMM理论补充r是求一个时刻位于的隐状态后向算法第t个时刻位于第i号隐状态下,而后面的观测值Ot+1,Ot+2,OT期望学习算法绿色可用EM算法进行。利用频率估计概率因为算初始概率,所以统计每句话的句首时,可能是单字成词或者开始态,不可能是中间与结束字。...原创 2020-05-11 09:13:09 · 161 阅读 · 0 评论 -
HMM
文章目录隐马尔可夫模型隐马尔可夫模型做一些隐特征的挖掘以及时间序列的分析。原创 2020-05-09 10:57:36 · 213 阅读 · 0 评论 -
主题模型---实践
文章目录理论LDA开源库介绍以文本分类为例Gensim安装word2vec实践理论LDA开源库介绍以文本分类为例保证所有样本的特征映射成的维度都是一样的。即由0-1组成的V维度向量。Gensim安装爬一些新闻,如下:word2vec实践...原创 2020-05-07 11:52:38 · 117 阅读 · 0 评论 -
主题模型---理论
主题模型主要内容若想做文档的提取,分类,以及发现,做0-1向量得到长度为V的向量。每一个文档的长度都是V维的,保证每个文档对应的0-1向量是一样的,所以不管是喂给logistic回归,还是SVM,随机森林,都是可能得到监督学习模型的。也可以使用朴素贝叶斯进行分类。对于同样一个词,放在不同的语义中即隐含的意义是不同的,即topic就不同,主题就不同,因此希望将这个词背后的topic拿到...原创 2020-05-01 14:42:13 · 327 阅读 · 0 评论 -
贝叶斯网络实践
文章目录主要内容小插曲形式化理解马尔科夫模型一点马尔科夫模型知识文本数据的处理流程TF-IDF模型Word2vec的使用主要内容利用库想去做分类时候,是怎样的一个现象。尤其关注分类的时间和效率怎么样 ,以及精度与logistic回归,SVM,岭回归可做一个比较。即每个词出现的位置,即标注为1,未出现的词,即标注为0.公式有时会有点差别,但是这是我们在自然语言中提取特征的办...原创 2020-04-30 10:34:00 · 237 阅读 · 0 评论 -
贝叶斯网络---理论
文章目录贝叶斯网络主要内容相对熵互信息信息增益概率高斯朴素贝叶斯朴素贝叶斯贝叶斯网络利用图论知识帮我们做点推敲主要内容相对熵互信息信息增益概率高斯朴素贝叶斯朴素贝叶斯...原创 2020-04-22 09:19:01 · 679 阅读 · 0 评论 -
EM算法实践
文章目录多维度的GMM聚类EM是聚类的一种吗?GMM--高斯混合模型调参多维度的GMM聚类对称正定矩阵,即协方差矩阵。EM是聚类的一种吗?EM算法是可以解决高斯混合模型他的参数的推断的,这是EM算法可做的。而聚类中有个k均值算法,其中假定各个类别是服从的等方差的高斯分布。即K均值可以解决一种特殊的高斯混合模型。所以EM与聚类有些问题是都可以解决的。EM算法对于观测数据不完整的,我们仍然可...原创 2020-04-20 16:13:58 · 296 阅读 · 0 评论 -
EM算法---重要的数据挖掘算法---期望最大化
文章目录主要内容EM代码说明Jensen不等式最大似然估计考虑如下问题一种欧拉式的说明问题解决从理论公式推导GMM-高斯混合模型主要内容EM代码说明在1000个用户中,有两种服从不同分布的高斯模型。先验假定只有男女两个类别,即一个是男性部分,一个是女性部分,二者进行混合得到所观测到的1000个数据,即称为高斯混合模型。可以用EM算法进行这4个参数的推断。甚至推断这1000个中,有多少个...原创 2020-04-19 07:56:55 · 269 阅读 · 0 评论 -
聚类--第二天实践
文章目录层次聚类方法凝聚层次聚类分裂层次聚类簇间距离的不同定义密度聚类方法具体算法过程问题讨论不同的参数有不同的结果层次聚类方法凝聚层次聚类这个使用多一些,即先把相似的样本合在一起,依次进行下去。分裂层次聚类簇间距离的不同定义加入噪声后ward平方和取平均就好了,complete最大距离不太好了,欧式距离也不太好了。所以要多进行尝试几次参数试试。但是做时,不希望引入噪...原创 2020-04-16 07:42:02 · 195 阅读 · 0 评论 -
聚类第一天
文章目录聚类有监督学习:无监督学习--聚类解决问题主要内容聚类定义相似度度量通过欧式距离得到进一步的讨论聚类有监督学习:在样本中y是离散的称为分类;y是连续的称为回归;无监督学习–聚类如果样本中只是有一些x,而y是不存在的,缺失的,没有的,我们现在希望指出x本身这些数据,利用相似性,将x做一个聚类。相当于用聚类算法选择出一些新的特征来了。解决问题在有些场景下,算法就是模型...原创 2020-04-14 13:27:37 · 111 阅读 · 0 评论 -
SVM实践
文章目录核函数核函数本质问题解答:核函数二阶全映射采用多项式核函数采用高斯核函数:求得是两个样本x与y之间的相似度。当两个维度相同,相似度为1,即最高。当不同时,相似度反正是个0-1的数。无穷远时,相似度为0。所以就可以看成以当前xi为中心的高斯核函数。如在3维空间中的超平面,在2维空间中就是曲线,如在100维中的超平面,在50维中可能就是某一...原创 2020-04-12 08:43:02 · 149 阅读 · 0 评论 -
SVM学习第一天
文章目录主要内容与目标SVM中各种概念问题解答1主要内容与目标SVM中各种概念问题解答1原创 2020-03-10 14:17:09 · 104 阅读 · 0 评论 -
XGBoost实践
文章目录XGBoost简介Kaggle简介根据乘客数据预测是否存活数据中有缺失值时如何处理问题1问题二代码实践实例1实例2实例3实例4实例5结果分析SVM效果相对好XGBoost简介XGBoost实践用的是train来训练,并传一些参数进行训练。Kaggle简介根据乘客数据预测是否存活数据中有缺失值时如何处理问题1问题二代码实践实例...原创 2020-03-06 18:37:39 · 146 阅读 · 0 评论 -
boost等一些提升算法
文章目录主要内容如下:随机森林特点决策树与随机森林关系的思考样本加权提升的概念问题解答提升算法提升算法推导梯度提升决策树(GBDT)算法推导主要内容如下:随机森林特点在做一些分类器或者回归器时,我们可以通过随机森林的方式把它变成若干个,从理论上说总是可以提高精度的。但是:使用一阶导数或二阶就可以得到GBDT或Adaboost自适应提升了。决策树与随机森林关系的思考样本加权...原创 2020-03-04 20:02:52 · 816 阅读 · 0 评论 -
决策树与随机森林--第二天
文章目录三种决策树学习算法决策树的评价例子1决策树的过拟合剪枝随机森林方案BootstrapingBagging的策略随机森林随机森林做回归实例投票机制样本不均衡的常用处理办法使用RF建立计算样本间的相似度异常值检测主要目录内容实例2实例决策树用于拟合多输出的决策树回归三种决策树学习算法决策树的评价例子1决策树的过拟合剪枝随机森林方案Bootstra...原创 2020-03-02 20:19:13 · 206 阅读 · 0 评论 -
线性回归实践解答
文章目录实例1导入各种包读取数据训练模型调节超参数画图解释以下三句话的意思线性回归中的参数实际中R2的值实例2预处理包系数换行为了画图以及访问中文的生成渐变颜色---得到若干颜色实例3实例4--绘制roc曲线得到AUC值颜色渐变pipeline管道5折交叉验证给的多个超参数,找出最优超参数实例1导入各种包读取数据训练模型采用伪随机方式生成随机数时都需要种子,种子可以指定,若...原创 2020-02-28 20:37:57 · 149 阅读 · 0 评论 -
决策树和随机森林
文章目录随机森林分类器主要内容决策树的建立随机森林分类器主要内容决策树的建立原创 2020-02-28 16:14:15 · 219 阅读 · 0 评论 -
线性回归之第二天
文章目录线性回归---MSE可决定系数---R的平方局部加权回归回归解决分类问题?Logistic回归Logistic回归损失广义线性模型GLMSoftmax回归ROC曲线以及AUC值KNN近邻法说明实例1实例2--自回归滑动平均线性回归实践读入样本数据绘图调参线性回归—MSE可决定系数—R的平方局部加权回归回归解决分类问题?Logistic回归...原创 2020-02-26 19:48:25 · 102 阅读 · 0 评论 -
线性回归之第一天
文章目录线性回归高斯分布最大似然估计与最小二乘法的本质合理假设求解目标函数线性回归高斯分布但是有些数据真的不服从高斯分布,所以这时再假设为高斯分布,即会有问题了。最大似然估计与最小二乘法的本质合理假设求解目标函数...原创 2020-02-25 20:51:27 · 144 阅读 · 0 评论 -
机器学习基础算法-----数据清洗之第一天
文章目录最大似然估计实例1实例2赔率实例1实例2Fuzzywuzzy包鸢尾花数据---特征选择PCA降低维度---主成分分析鸢尾花数据---分类若用线性分类将其分开2次方程模型---将选好的特征进行升维3次方程模型---将选好的特征进行升维过拟合原始数据处理过程实例最大似然估计MLE最大似然估计实例1实例2赔率实例1...原创 2020-02-24 19:35:00 · 199 阅读 · 0 评论