![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
有趣的机器学习
文章平均质量分 63
amcomputer
内修数据结构机器学习,外练web开发网络安全。
展开
-
安装paddle - 使用百度镜像
安装paddle原创 2022-06-13 11:20:30 · 2119 阅读 · 0 评论 -
Python字典的get()方法介绍
1 背景Python字典的get()方法介绍今天看到一个字典用法,自己学习一下。2 字典常用初始化下面这个方式,应该是最常见的吧。dictOne = {"one":1,"two":1}myList = ["three", "four"]for i in Mylist: if i in dictOne: dictOne[i] + =1 else: dictOne[i] =13 get()方法介绍有幸看到了下面这个用法(最后一行)import jieba # jieba原创 2022-05-30 22:30:34 · 1791 阅读 · 2 评论 -
python 通过给定目录统计所有的不同子文件类型及占用内存
1 背景python 通过给定目录统计所有的不同子文件类型及占用内存。看这个名字觉得挺吓人的,但其实数据或者文件夹中已经有了具体信息,如数据类型,大小等等,只需要遍历目录或者文件拿到这些信息就好了。主要利用了操作系统的提供的接口(OS模块),从里面获取具体的文件数据。2 OS模块介绍Python OS模块包含普遍的操作系统功能, 这里的的OS是操作系统的简写(Operation System)。该模块 可以处理文件和目录这些我们日常手动需要做的操作。如果你希望你的程序能够与平台无关的话,这个模原创 2022-05-30 16:48:06 · 356 阅读 · 0 评论 -
矩阵求逆操作的复杂度分析(逆矩阵的复杂度分析)
矩阵求逆操作的复杂度分析逆矩阵的复杂度分析1 背景之前写过一篇关于矩阵复杂度分析的文章,没有想到阅读人数那么多。对于IT相关人士来说,从代码层次再结合基本数学知识,就能够很好地理解矩阵的复杂度如何计算得到和分析。其中一位读者提出“矩阵求逆的复杂度如何分析”。今天就来一起共同探讨一下,笔者知道,矩阵求逆有多种方法,这里就来探讨最基本的方式,其他优化方式,读者可以看完本篇博客后,自行分析,因为原理基本上差不是很多。本篇博客仅仅是抛砖引玉。2 求逆操作分析2.1 求逆矩阵基本原理这里很多读者可以容易忽原创 2022-05-23 10:22:26 · 15874 阅读 · 2 评论 -
1067. Disk Tree - Java实现
1 Disk TreeDisk TreeTime limit: 2.0 secondMemory limit: 64 MBHacker Bill has accidentally lost all the information from his workstation’s hard drive and he has no backup copies of its contents. He does not regret for the loss of the files themselves,原创 2022-04-27 16:49:43 · 398 阅读 · 0 评论 -
2022年模式识别高峰论坛学习与个人感悟
0 前面的话看了报告的具体分析内容与分主题,也不知道和自己研究方向有什么联系, 从字面上看,大概是无关吧.但不知道为什么, 内心深处还是想看,想听这些专家们的分享, 即使可能也听不懂, 即使可能也什么也学不到, 即使对自己研究方向没有任何帮助.但是, 笔者就想看看, 看看模式识别领域发展到什么地步了, 有了哪些进展, 哪些成就. 打开自己视野, 听听别人的想法, 听听别人思考问题站立的角度, 如何提出问题, 如何解决问题. 如何设计自己的模型, 如何站在更高层次上看待问题. 同时, 学习..原创 2022-04-25 11:39:40 · 1818 阅读 · 1 评论 -
浅谈子串和子序列的相同点和不同点
子串(substring)和子序列 (subsequence)的区别是什么?之前没有细心理解过二者概念,今天自己来补一下这方面知识。1 背景介绍在做算法题的时候,经常会遇到子序列问题,如 Logest Increasing Subsequence 问题如对于序列数组:[4 ,2, 4,5, 3, 7]最长的递增子序列是 [2, 4, 3, 7]和之前学习到子串的定义感觉有所不同,但又说不上来什么不同。比较直观的理解就是,可以在原来数组中任意划掉一个或者多个元素,就可以构出子序列。如划掉2; [原创 2022-04-24 22:48:18 · 6871 阅读 · 4 评论 -
今天你相亲了吗?相亲号匹配问题
Number matching: How to match guys and girls on a blind date quickly号码匹配:相亲的男生和女生如何快速匹配1 背景介绍由于信息化的发展和进步,适龄男生和女生的相亲活动逐步由线下转变为线上活动。这样不仅仅节约了大量的时间,同时也能方便适龄人寻找对象。2 样例介绍现在有5个男生,每个男生最多能选择3个女生,也可以选择1个或者不选。同时也有5个女生,每个女生最多能选择3个男生,也可以选择1个或者不选。选中规则,在线上相亲过程中,男女双方原创 2022-04-16 11:41:52 · 558 阅读 · 0 评论 -
论文学习-多示例学习系列-Bag Graph: Multiple Instance Learning using Bayesian Graph Neural Networks
Bag Graph: Multiple Instance Learning using Bayesian Graph Neural Networks文章链接:https://arxiv.org/pdf/2202.11132.pdf论文涉及代码:https://github.com/networkslab/BagGraph1 摘要多实例学习(MIL)是一个弱监督学习问题,其目标是为示例集或包分配标签,而不是传统的监督学习,监督学习中每个示例都假定是IID,并被单独标记。最近的工作显示了在MIL场景的神原创 2022-04-13 09:37:04 · 1317 阅读 · 0 评论 -
兔子会死怎么办? 古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,假如兔子会死
兔子会死怎么办? 古典问题:有一对兔子原创 2022-04-12 12:56:25 · 2573 阅读 · 0 评论 -
海量文件遍历之统计所有的不同子文件类型及占用内存
统计所有的不同子文件类型及占用内存1 核心代码import os """通过给定目录,统计所有的不同子文件类型及占用内存"""size_dict = {}type_dict = {}def get_size_type(path): files = os.listdir(path) for filename in files: temp_path = os.path.join(path, filename) if os.path.is原创 2022-03-05 21:26:36 · 218 阅读 · 0 评论 -
linux下的tree命令介绍
1 基本说明tree -FC-F 显示目录后面的\;显示可执行文件*;功能类似ls -F-C 带颜色显示,美观2 演示1 显示当前目录下的2层:tree -L 22 显示/data/repo的文件夹结构:tree /data/repo3 输出目录结构到指定文件(也比较常用)tree > output.txt>表示从定向3 实战tree -L 6 .data//输出data/目录下的6层目标格式结果:...原创 2022-03-05 11:49:53 · 4375 阅读 · 0 评论 -
海量文件遍历之 python解压文件
先看文件目录,在data10954目录下现在开始用python解压这2个文件,直接以函数方式,核心是用了zipfile这个库直接上代码import zipfileimport osdef unzip_data(src_path,target_path): # 解压原始数据集,将src_path路径下的zip包解压至target_path目录下 if(not os.path.isdir(target_path)): z = zipfile.ZipFile原创 2022-03-05 11:43:19 · 607 阅读 · 0 评论 -
A Exam:Machine Learning with Python
Problem 1 [8 pts]You are robot in a lumber yard, and must learn to discriminate Oak wood from Pine wood. Youchoose to learn a Decision Tree Classifier. You are given the following examples:(a) [3 pts] Calculate the information gain for each attribute f原创 2021-12-09 10:54:56 · 1312 阅读 · 0 评论 -
如何申请国家自然科学基金报告学习体会
报告简单背景描述3位专家:报告一:自科基金申请与创新人才成长报告时间:2021年12月5日(星期日)09:00-10:00报 告 人:高新波 教授报告人简介:高新波,博士,教授,重庆邮电大学校长,科技部重点领域创新团队负责人、教育部创新团队负责人,教育部高等学校计算机类专业教学指导委员会委员。重庆市青年科技领军人才协会会长、英国工程技术学会会士、中国电子学会会士、中国计算机学会会士。主要从事人工智能、机器学习、计算机视觉、模式识别等领域的研究和教学工作。获国家创新争先奖状、国家自然科学二等奖1项原创 2021-12-05 12:17:52 · 2588 阅读 · 1 评论 -
矩阵求导相关公式汇总
求导原创 2021-12-03 11:36:54 · 2225 阅读 · 0 评论 -
区块链&多方计算 &人工智能学习笔记
区块链:让数据不被篡改,但需要复制数据给每一块,造成数据泄露多方计算 : 让数据用途可控。数控可用但不可见。人工智能:数据更难造假1 区块链2 多方计算3 人工智能觉得NLP已经有很多模型,已经觉得很成熟了,...原创 2021-11-22 16:45:49 · 15078 阅读 · 0 评论 -
AUPRC Vs 平均查准率
很多场景下,会看到AUPRC与平均查准率的混用,即一般情况下,默认二者相同,即AUPRC = average precision但实际上,二者是不同的, average precision只是AUPRC值的近似。注意python (sklean)和R都采用了这个方式计算AUPRC# Compute Precision-Recall and plot curveprecision, recall, thresholds = precision_recall_curve(y_test, clf.原创 2021-01-12 21:19:29 · 4995 阅读 · 3 评论 -
希尔伯特空间简记
经常会遇到希尔伯特空间(Hilbert Space)这个陌生又熟悉的名词,决定解决一下这个名词。1速记希尔伯特空间就是在线性空间基础上加了3个条件,即完备性,无限维和满足内积操作,形成新空间。2 理解希尔伯特空间(Hilbert Space): 是完备的,可能是无限维度的,被赋予内积操作的线性空间。线性空间:线性代数上的向量空间,即满足加分和数乘封闭。详细性质有如下八条:完备:对极限操作是封闭的,即n趋近与无穷时的极限值,也在希尔伯特空间无限维度:维度无限,我们经常...原创 2021-01-09 16:48:45 · 1770 阅读 · 0 评论 -
矩阵中的entries是什么
在看一些论文时,涉及到matrix时总会遇到一些不好解释的名字,即使知道它的常用中文翻译,如items,entries。看了维基百科中的定义后,才明自论文里指的是什么。The individual items in anm×nmatrixA, often denoted byai,j, whereiandjusually vary from 1 tomandn, respectively, are called itselementsorentries.矩阵中的...原创 2020-12-27 22:53:25 · 15747 阅读 · 2 评论 -
矩阵乘法复杂度分析
一 背景在很多机器学习或者数据挖掘论文中,里面或多或少的涉及到算法复杂度分析。进一步思考,是如何得到的呢?很长时间里,我也感受到比较疑惑,阅读论文过程中,在涉及到这部分内容时,会直接跳过算法复杂度分析这快。其一是因为比较烧脑。虽然知道复杂度分析是对算法总体上的概况,用来进行算法间好坏的比较(由此可见,作要性)。其二是算法分析基础比较薄弱(个人主观上也是不想的)。算法复杂度在《数据结构》课程中也或多或少的涉猎,说完全不知道属于自己骗自己,简单的一些例子还是会分析的,但当涉及到复杂的目标方程原创 2020-12-27 17:38:12 · 44174 阅读 · 29 评论 -
为什么使用负采样技术(附详细求导过程)
word2vec的初心是什么,为什么使用负采样技术。看了很多博客和B站视频讲解,还是没有讲解清楚。最后还是知乎大佬说清楚了。详见1.用负采样带来的问题 参数更新慢 其一 我们每次只对窗口中出现的几个单词参数进行更新,但是在计算梯度的过程中,是对整个参数矩阵进行运算,这样参数矩阵中的大部分值都是0。 计算开销大 其二 是 导致计算效率低下softmax函数激活,会导致计算全部的单词‘得分’(滑动窗口在滑动过程中,需要计算滑动窗口里面单词然后求和,效率低)2..原创 2020-12-26 12:05:03 · 1465 阅读 · 1 评论 -
must-link 与 cannot link 约束介绍
在看一些论文时,经常会看到关于must-link 与 cannot link 约束的一些相关工作介绍,特别是在聚类这个领域。must-link constraints:必连约束, 是指样本必属于同一个簇。 如果2个样本满足必连约束,那么在聚类时这2个样本应该被分到同一个簇中。cannot-link constraints:勿连约束,是指样本不必属于同一个簇。 如果2个样本满足勿连约束,那么在聚类时这2个样本不应该被分到同一个簇中。这2个约束一般作为成对约束来作为指导信息,在度量学习或者半监督聚类工原创 2020-12-19 21:10:30 · 1462 阅读 · 3 评论 -
pytorch np.ndarray转tensor失败
报错信息:TypeError: can't convert np.ndarray of type numpy.int32. The only supported types are: float64, float32, float16, int64, int32, int16, int8, uint8, and bool.众所周知,在torch中,与numpy数组互相转换的API是torch.from_numpy() 或者.numpy()但有时候,二者直接转换会遇到报错(下图第87行)..原创 2020-09-08 20:32:35 · 6766 阅读 · 0 评论 -
多标记学习指标(一篇博客就够了)
目前已经实现指标(后续不断更新):写作初学:代码写好了,评价指标很杂很乱,想写一个适合多标记学习或者多标记分类评价指标的类-实现各种常用指标,免得以后到处找,耗时耗力。1 准确率-accuracy2 F1值 -fscore3 hamming_loss -hamming_distance4 AUROC5 AUPRC - (很多博客没有找到这个)6 查准率- avgPrecision7 召回率 -avgRecall# -*- coding: utf-8 -*-"""...原创 2020-09-07 21:15:50 · 2026 阅读 · 0 评论 -
python实现AUROC多标签分类计算
import sklearnimport numpy as npfrom scipy.sparse import csr_matrixfrom scipy.sparse.csgraph import laplacianfrom scipy.sparse.linalg import eigsfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import f1_scorefrom sklearn.metrics impo.原创 2020-09-07 20:00:59 · 4221 阅读 · 3 评论 -
DGL.heterograph创建错误
raise DGLError("dgl.heterograph no longer supports graph construction from a SciPy " data = getM4Ldata(data_file_path) data_dict = { ('Gene', 'bag-labled', 'Disease') : data['GvsD'], ('Gene', 'bag-instance', 'Isofrom') :dat.原创 2020-09-04 20:09:43 · 2607 阅读 · 4 评论 -
pyhon列表生成器用法汇总
在很多数据处理过程中,经常会见到列表生成器,因为它语法简单,很多复杂操作仅仅一行代码就搞定。一 基本语法基本语法: [表达式 for x in list]a = [x for x in range(1,5)]aOut[112]: [1, 2, 3, 4]二 条件分支基本语法: [表达式 for x in list if 条件]a = [x+3 for x in range(1,5) if x>2]aOut[116]: [6, 7]三 else基本语...原创 2020-08-18 12:17:05 · 191 阅读 · 0 评论 -
python导入tensflow.keras报错解决方法
在使用tensflow.keras可能会遇到如下错误:解决方案步骤如下:1 先导入tensorflow,如不能,则去下载tensorflow>>> import tensorflow>>> import tensorflow.keras2 导入tensorflow中的kearas,上面第2条命令3 换个方式导入>>> from tensorflow import keras>>> from t...原创 2020-08-12 11:09:53 · 35562 阅读 · 3 评论 -
python类继承bug
最近写类继承时发现python的继承需要改动基类参数才能实现调用父类的构造函数,这样在继承父类后,特别是对于多继承时,发现传递参数不成功,最后我修改了父类的成员变量顺序才成功(欢迎有其他想法的同行留下自己的思考,我只能解决问题,还没找到出现原因)。需求如下Item为父类,成员变量为name和aomunt, 成员函数分别为buy,sell和get操作;先一个子类NewBook 需要继承Item,只需要用到amont变量,name为固定字符串。且只能继承它的成员变量和成员方法,NewBoo...原创 2020-08-01 18:09:28 · 373 阅读 · 0 评论 -
Python实现小圆覆盖大圆问题
问题回顾 给定一个半径为10m的圆,和若干半径为1m的小圆(小圆个数足够多),现在要用若干小圆来覆盖这个大圆。问至少需要多少个小圆才能覆盖这个半径为10m的圆?求解思路 为保证小圆数量最小,既圆与圆之间不重叠,既相切情况。 因为需要考虑大圆与小圆之间的间隙,也要考虑小圆与小圆之间的间隙。 故只能采取近似思想进行计算。 1、当r<R<2r时,n=1; 2、当2r<=R<2.1547r时,n=2; 3、...原创 2020-07-25 15:18:33 · 6790 阅读 · 3 评论 -
多分类问题与多标记学习
多分类问题与多标记学习这2个概率很容易混淆,特别是2个概念放到一起时,还有就是当涉及对多分类问题使用多对多模型时,更容易头晕,因此笔者在这里简单介绍一下2者相同和区别之处。1 多分类问题1.1 一对一 当分类是多分类(既k>2),可以把多分类问题灵活处理为普通的2分类问题,既不同类两两组合,如k=3时: 分类器的总个数为:k(k-1)/2=3,既从k个分类器总选择2个。 分类器情况为(正类|负类):(类1|类2),(类1|类3),(类2|类3)1.2 一对其他...原创 2020-07-21 09:32:51 · 763 阅读 · 0 评论 -
多视图与多模态之争
本周6看了CCF-AI走进高校系列报告,在看天津大学张长青副教授做多视图学习报告时。在提问环节,其中有一个有意思的问题。多视图与多模态有什么区别?传统的机器学习一般而言基于单视图建模分析,也有学者称多视图为多模态。下面说一下笔者自己的理解,仅当了解,无论对错。先看一下大佬的回答:这个问题是深圳大学王熙照教授提出的。王老师以一个深圳大学博士生毕业生答案进行侧面回答:多个传感器获取到的数据是多模态,而单个传感器在不同位置获取到的数据是多视图的。张老师的回答:多视图包含多模态,多视图更接近机器学习,更原创 2020-06-28 09:52:23 · 3981 阅读 · 6 评论