机器学习
文章平均质量分 79
路过的风666
https://github.com/ThePassedWind
展开
-
Segment Anything(2)
本期的内容将分为以下几个方面1. SAM自动化生成mask2. 压缩保存mask3. 超像素分割算法改进SAM(目前效果不佳,但可能以后能做出来)原创 2023-06-01 15:58:09 · 1148 阅读 · 0 评论 -
Segment Anything(1)
cv领域的大模型SAM的安装、使用,以及与其他工具的结合,是接下来很长一段时间的基础模型。原创 2023-04-26 18:23:01 · 1175 阅读 · 0 评论 -
机器学习面试题
数据分析面试题原创 2022-12-01 11:07:13 · 511 阅读 · 0 评论 -
opencv高版本的各种报错解决方案
opencv常常出现各种报错,小记一下实践中出现的问题,避免走弯路。原创 2022-11-03 15:56:02 · 1325 阅读 · 9 评论 -
文本相似度指标-基于词汇的相似度量
文章目录Jaccard相似度余弦相似度Dice系数匹配系数Jaccard相似度J(A,B)J(A,B)J(A,B)表示有限样本集之间的相似程度:J(A,B)=∣A∩B∣∣A∪B∣=∣A∩B∣∣A∣+∣B∣−∣A∩B∣J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|}J(A,B)=∣A∪B∣∣A∩B∣=∣A∣+∣B∣−∣A∩B∣∣A∩B∣Jaccard相似度:dj(A,B)=1−J(A,B)=∣A∪B∣−∣A∩B∣∣A∪B∣=AΔB∣A∪原创 2022-04-12 17:26:46 · 795 阅读 · 0 评论 -
词嵌入向量生成
词嵌入向量生成写出每个单词的one-hot encodingimport numpy as npX = np.eye(5)words = ['quick','fox','dog','lazy','brown']for i in range(5): print(words[i],"的one-hot编码:",X[i])quick 的one-hot编码: [1. 0. 0. 0. 0.]fox 的one-hot编码: [0. 1. 0. 0. 0.]dog 的one-hot编码: [原创 2022-04-11 00:08:55 · 1608 阅读 · 0 评论 -
GSDMM短文本聚类
文章目录优点例子代码测试结果[1] Yin J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 233-242.与LDA不同,GSDMM针对较小文档,假设每原创 2022-04-09 17:03:52 · 1971 阅读 · 2 评论 -
RNN与LSTM简单案例实现
前言:针对视频、语音、文本等时序数据,很多时候比较适合利用一些时间序列网络模型RNN和LSTM等。类比于人类在看视频、听语音、读文章时,我们往往都是针对一序列的数据来思考,也就是说,当我们看到下一帧/一段数据时,之前看过的数据还保留在脑海中,对后面的数据分析是存在影响和指导意义的。那么,我们就需要设计相类似的神经网络(RNN/LSTM等)去对这类时序数据进行更好的分析,而非看到后面忘了前面,在得到这些数据更具表示性的特征之后,我们就能完成进一步的下游任务,例如视频/文本的情感分类等各种分类聚类任务了。.原创 2022-04-01 22:18:24 · 1466 阅读 · 0 评论 -
实体消歧综述整理
阅读文献:[1] 段宗涛,李菲,陈柘.实体消歧综述[J].控制与决策,2021,36(05):1025-1039.DOI:10.13195/j.kzyjc.2020.0388.文章目录分类按实体任务领域划分按有无目标知识库划分按链接知识库类型划分词义消岐命名实体识别方法基于无监督聚类的消岐系统(1) 基于词袋模型的聚类方法(2) 基于语义特征的聚类方法(3) 基于社会化网络的聚类方法(4) 基于百科知识的聚类方法(5) 基于多源异构语义知识融合的聚类方法基于实体链接的实体消歧其他实体消岐应用测评总结与.原创 2022-01-29 21:48:08 · 3812 阅读 · 0 评论 -
时间序列数据分析
时间序列数据分析参考知乎文章:时间序列数据分析101,作者:厉建扬除此之外还添加了分类、聚类的评估方法汇总+python实现。文章目录时间序列数据分析1 准备和处理时间序列数据1.1 准备数据集1.2 寻找时间轴1.3 可能遇到的问题1.4 清洗数据1.4.1 缺失值处理1.4.2 改变数据集时间频率1.4.3 平滑数据2 探索式分析(EDA)2.1 针对时间序列的特殊方法2.1.1 理解平稳性2.2 寻找自相关(autocorrelation)3 基于统计学的时间序列分析方法3.1 自回归模型(转载 2021-08-29 17:13:53 · 7191 阅读 · 0 评论 -
半监督学习(一)--(GMM/EM/Based on Graph)
1 背景1.1 基本背景介绍避免数据和资源的浪费,解决了监督学习由于数据量较少而引发模型泛化能力不强,和无监督学习的模型不够准确(盲猜)等问题。所有的半监督学习都需要基于某些假设,半监督算法仅在数据的结构不变的假设下起作用,如果没有这样的假设,不可能从有限的训练集推广到无限的不可见集合(X_test是随机的,属于一个无限集合)。常见的三个假设如下:1.2 基本假设平滑假设(高密度相似)稠密区域的两个距离很近的样例类标签相似,即当两个样例被稠密数据区域中的边连接时,它们很大概率下有相同的标签原创 2021-05-16 00:00:13 · 1274 阅读 · 0 评论 -
八数码问题(python实现)
问题的表示我们使用一个二维数组arr表示一个状态空间,数组的元素含有0-8,0表示可以移动的空格,1-8表示其余待排序的方块。【一个二维数组表示八数码的每个位置的可移动方向】通过对空格0的上、下、左、右移动,得到最终的目标状态。为实现BFS和DFS搜索算法,我们需要实现一些辅助函数:① Cal_sameNum(self, state):传入一个状态state,返回当前节点”在位“的棋格数。② NeedStop(self, state, stop):传入一个状态state和一个状态列表stop,若状态原创 2021-04-05 15:46:10 · 16893 阅读 · 15 评论 -
机器学习——线性回归与分类(包括部分公式推导)
机器学习白板推导课程的线性模型部分笔记整理如下:https://www.bilibili.com/video/BV1aE411o7qd?p=22&spm_id_from=pageDriver文章目录1 线性回归1.1 最小二乘法LSE1.2 极大似然估计MLE1.3 最大后验概率估计MAP1.4 线性回归的三大特点及其延申方法2 正则化2.1 LASSO(L1正则化)2.2 Ridge(L2正则化)3 线性分类3.1 硬输出3.1.1 感知机3.1.2 线性判别分析LDA3.2 软输出(概率.原创 2021-02-24 21:54:49 · 378 阅读 · 0 评论 -
机器学习——聚类基础入门(包含GMM代码)
文章目录1 概述2 性能度量2.1 外部指标2.2 内部指标3 距离计算3.1 有序属性的距离3.1.1 闵可夫斯基距离3.1.2 欧氏距离(L2范数)3.1.3 曼哈顿距离(L1范数)3.2 无序属性的距离3.3 混合属性的距离3.4 非度距离4 原型算法4.1 kmeans算法4.2 学习向量量化(LVQ)4.3 高斯混合聚类整合代码1 概述kmeans:可看作高斯混合聚类在混合成分方差相等,且每个样本仅指派给一个混合成分时的特例常用聚类算法:k-medoids:k-modesF原创 2021-02-19 16:05:54 · 1042 阅读 · 0 评论 -
机器学习——模型评估与选择
模型评估与选择b站网课的学习笔记https://www.bilibili.com/video/BV17J411C7zZ?p=34&spm_id_from=pageDriver1 模型验证方法1.1 保留法(留出法)划分为训练集和测试集两个集合(7:3)1.2 蒙特卡洛交叉验证重复二次采样验证,可看作多次保留法1.3 k折交叉验证随机划分为k个大小相等的子集,每次选取一个子集作为测试集,其余为训练集。用k轮检验结果作为平均值作为评价标准,最常用的是10折交叉验证1.4 自助法原创 2021-02-16 17:57:17 · 270 阅读 · 0 评论