机器学习课程总结(个人向) 本文主要总结了机器学习课程中的大部分知识点,包含概念学习、决策树、ANN、贝叶斯推理、无监督学习、基于实例的学习、回归学习、线性分类器、特征选择与稀疏学学习。包含有LMS算法、Find-S算法、候选消除算法、ID3、C4.5、朴素贝叶斯、Gibbs算法、Kmeans、层次聚类、KNN、径向基函数RBF、线性回归、逻辑回归、softmax回归、SVM、Widrow-Hoff算法、relief-F算法、LVW算法、字典学习等内容。
10月下半记录 之后又出现了这种情况,reload window的时候突然断连了,关掉terminal之后再进行reload window就又好了,很奇怪,可能是vscode选择环境和conda出现了一些冲突。indices和data的长度均为矩阵中的非零值个数,indtpr长度为矩阵行数+1且单调不降,且最后一个值等于矩阵中的非零值个数。则说明data[0,1)的值a在第一行,data[1,4)的值bcd在第二行,data[4,8)的值efgh在第三行,第四行没有值。之前都可以正常连接,但是突然就不对了。
PO2GO、PO2Vec论文阅读与模型复现报告 今年的一篇经典蛋白质功能预测论文,思路自然,效果也不错模型主要分为两个部分,PO2Vec和PO2GO,PO2Vec是PO2GO的一个模块。数据集使用了CAFA3和Swissprot,使用的是蛋白质序列特征和GO标签依赖关系特征。
InterPro蛋白质结构域数据下载 偶然发现InterPro数据库挺不错的。之前使用selenium爬取了AlphaFlod数据,于是也想试试把InterPro的结构域数据爬取一下。结果发现官方已经给好了代码,真是太善解人意了。当然,想要批量下载还需要魔改一下官方代码。
配置vscode终端自动激活anaconda的python环境 每次使用vscode写python代码的时候,都需要在外面跑一个anaconda prompt,激活环境,然后进入对应的文件夹,运行代码,特别麻烦,所以想,能不能直接在vscode终端里面激活环境然后运行。
CTF密码学小结 3、yafu工具分解质因数,78位数分解约使用3分钟,非常好的工具,集成了试除法、fmt、pollar_rho、ecm等各种各样质因数分解方法,并且做了许多并行计算的优化,相当高效。SVP问题,就是求格中范数最小的向量,CVP问题,就是给定一个向量,求格中的向量离他距离的最小值。复杂的都是O(a^k)级别的(a是常数,k是格基的大小(一般和向量维数相近))1、random设置种子后随机的性质:同一个种子生成同一个序列,如果把生成的序列中的某个数又作为种子,这样迭代生成的序列,只与第一条序列的种子相关。
七月记录上半 exit:关闭当前窗口,并结束此窗口下创建的所有进程(?mysql -u root -p 数据库名 < 脚本名。screen -r 窗口号 :调用该窗口。screen -S 窗口名:创建窗口。screen -ls :查看所有窗口。ctrl+a+d:退出窗口。
2024蓝桥杯国赛C++研究生组游记+个人题解 开始复习,过了一遍大部分板子本来打算再学一遍SAM,但是想到去年考了字符串大题今年应该不会再考了吧。。过了一遍数据结构和图论,就1点了两点的时候还没睡着,舍友打游戏好像打到2点过。。
Mysql报错红温集锦(一)(ipynb配置、pymysql登录、密码带@、to_sql如何加速、触发器SIGNAL阻止插入数据) 这是一篇问题与报错集锦:jupyter notebook无法使用%sql来添加sql代码,密码带@怎么登录,pandas库的to_sql函数怎么加速,使用触发器阻止某条数据的插入与to_sql冲突了怎么办。没正确的登录到mysql用户上通过notebook添加mysql代码需要登陆对应的mysql用户和数据库否则就会遇到$DATABASE_URL not set这种报错怎么登录?格式如下A:用户名、B:密码C:数据库服务器的IP地址,如果是连接本机就写 localhost。
蛋白质PDB文件解析+建图(biopython+DGL) PDB文件设计得非常好,能够比较完整地记录实验测定数据从蛋白质结构来看,首先它会有多种不同的测定模型,然后每个模型中包含多条链,每条连上包含若干个残基,每个残基包含若干个原子在biopython.PDB包中可以找到这些概念对应的模块:model、chain、residue、atom首先用PDBParser读取文件,获得structurestruct内部的一层结构是model,我们只取第一个model然后就可以用循环遍历chains、residues、atoms。
seq2seq架构略解 在预测时,在第一步预测完毕之后,使用的dec_state会继承解码器RNN的隐藏层状态,而不是保持编码器所获取的隐藏层H1的信息。若数据集为{ }(AB语言对应的句子组)A语言的单词序列+结束符(a1,a2,a3,a4,a5,)开始符+B语言的单词序列(,b1,b2,b3,b4,b5)A语言的单词序列+结束符(a1,a2,a3,a4,a5,)B语言的单词序列(b1,b2,b3,b4,b5,)
2024蓝桥杯省赛C++软件算法研究生组题解(含代码)+游记 2024蓝桥杯C++软件算法研究生组,数学题较多,树相关题较多,个别题目比较综合本文包含简要的题意与大部分题目的详细题解与代码实现,最后还有一些游记内容。
关于Anaconda通过environment.yml配置环境的常见问题解决办法 配环境总是一个老生常谈的问题,有些项目写得好的,会把一些冗余的包删除,只留下必要的包,并且手把手教你pip安装,但是有些项目就直接丢一个200~300行的environment.yaml文件或者requirement.txt文件让你自己去配,虽然也有相关的环境配置内容,但能够按照步骤一次通过配置的可能性很低,而且大部分问题会跟系统环境、pytorch版本、anaconda版本有关,最终结果就是有些包配了半天终于配好了,结果代码里面直接一个注释不用了,总之就是让人十分折磨。
24年3月下半笔记(个人向) 正则化(规范化),统一参数的量级,避免训练时参数运算的数量级不同导致一个学习率无法适应多个层级的训练,规范化层的运算就是B(x)=k((x-均值)/标准差)+b,这里的均值和方差是通过一个小批量的数据来统计的(所以叫批量规范化,一般适用于50~100的batch_size),k是对正则化后的tensor做一个对应乘法,只在单个数据上操作,不涉及数据间的组合。之后在服务器上配个环境再来跑跑。简单来说,马尔可夫模型就是一条状态链,确定了每一步的转移都只与前面的状态有关(类比于线上的动态规划,递推方程之类的)。
机器学习分类模型评价指标总结(准确率、精确率、召回率、Fmax、TPR、FPR、ROC曲线、PR曲线,AUC,AUPR) TP、FP、TN、FN准确率、精确率(查准率)、召回率(查全率)真阳性率TPR、伪阳性率FPRF1-score=2TP/(2*TP+FP+FN)最大响应分数Fmax为F1-score的最大值(在最佳阈值的前提下)