机器学习
文章平均质量分 65
Mr.zwX
2019年进入电子科技大学接触计算机(方向涉及:机器学习/深度学习(CV、NLP、GNN)、时空数据挖掘、一点点开发(部分后端/前端)),2022年在电子科技大学实验室科研,2023年在复旦大学NLP组实习,2023年9月至今,在北京大学人工智能研究院科研(模型加速/压缩、隐私计算)...保持努力,anyway,这个平台是我记录一些乱七八糟计算机笔记的地方,供(记性不好的)自己复习,同时也分享给大家
如需联系:请发邮件至[email protected]
展开
-
【Python】一个最基础,但是超难看出来的类声明为tuple的BUG
小结一句,Python末尾是没有分号或者逗号的,要防止误敲无关字符!为啥这个class是个tuple类型呀!原因非常简单,我在声明类的时候,原创 2023-10-25 11:54:14 · 74 阅读 · 0 评论 -
Curriculum Learning and Graph Neural Networks (or Graph Structure Learning)
这部分是对curriculum learning的基础知识进行学习,首先从最经典的开山之作“Curriculum Learning”入手,学习其核心思想。链接: Curriculum Learning核心思想: 让模型模仿人类的学习策略,先学习简单的样本,然后逐渐学...原创 2022-06-06 23:45:29 · 634 阅读 · 0 评论 -
Domain Adaptation and Graph Neural Networks
首先来考虑如下的场景:我们已经在training set上训练好了模型,现在开始在testing set上进行测试。如果testing data和training data的来自于同分布的,那么预测结果好较好,而testing data与training data差距原创 2022-06-06 23:37:02 · 1045 阅读 · 2 评论 -
【数据处理脚本】RA-CNN模型数据集处理及训练出现的报错解决
文件合并处理的脚本编写在我的虹膜数据集中,每个人的数据对应一个编号的文件夹(如001),文件夹下分左右眼文件夹(L和R),结构如下:001LR002LR在本次实验中,没有对左右眼进行区分,所以我需要将L和R文件夹下的所有图片都揉在001文件夹中,编写脚本如下:# merge_files.pyimport osimport shutilstart_file_id = '000' # 要处理的起始文件夹编号file_num = 1000 # 要处理的连续文件夹数原创 2022-01-22 16:24:35 · 1260 阅读 · 5 评论 -
2021年【博客之星】投票支持
投票链接:2021年「博客之星」参赛博主:Mr.zwX不知不觉中,2021悄然溜走,我也已经走过大学的两年半啦!在CSDN写技术博客记录自己的点点滴滴是我从大一到现在一直坚持的事儿,我很幸运能够在刚进大学的时候接触到让我愿意为之不懈努力的机器学习,希望自己继续努力,2022年我可以去到理想的学校和实验室继续我的科研深造之路。感谢大家一直以来的支持,你们的点赞、收藏、关注和评论留言都是我前进的动力(有点像B站UP主的说话风格哈哈哈)...原创 2021-12-28 15:58:43 · 1191 阅读 · 12 评论 -
Ensemble Learning之GBDT及XGBoost算法手写推导
在推导XGBoost原理之前,需要对GBDT进行学习,GBDT是XGBoost的基础。由于存在较多公式,所以这次学习过程选择手写笔记的形式~更多算法介绍 优缺点总结 源码见文末的参考资料,本文记录算法的推导及原理。参考资料:通俗理解kaggle比赛大杀器xgboostNLP-LOVE一些有关Ensemble Learning的学习记录...原创 2021-07-31 23:04:51 · 169 阅读 · 0 评论 -
【数据挖掘】多标签XGBoost(multi-label)模型实现特征重要性(feature_importance)的输出
我封装的多标签(multi-label)XGBoost模型是像下面这样写的:from xgboost import XGBRegressorfrom sklearn.multioutput import MultiOutputRegressormulti_xgb = MultiOutputRegressor(XGBRegressor(max_depth=10, learning_rate=0.1, n_estimators=500, silent=False))multi_xgb.fit(trai原创 2021-07-26 20:38:09 · 3146 阅读 · 8 评论 -
【数据挖掘】Python绘制一组样本的CDF概率分布函数(经验分布函数)
CDF是什么?简单对概率分布函数进行一个描述,在概率论中要研究一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数。F(x)=P(X<x),F(+∞)=1,F(−∞)=0F(x)=P(X<x),F(+\infin)=1,F(-\infin)=0F(x)=P(X<x),F(+∞)=1,F(−∞)=0CDF对机器学习有什么用?可以非常直观地对预测误差进行分析,可以判断出当误差为某个值时的具体概率是多少,以该图像指标为基础为后续的优化和改进做铺垫。现原创 2021-07-21 20:29:03 · 4376 阅读 · 2 评论 -
Matplotlib绘制水平/垂直线以及带变量图例 学习记录
构造函数图绘制水平线和垂直线绘制带变量的图例各个参数的自定以设置import matplotlib.pyplot as pltimport numpy as npx = np.linspace(-5, 5, 300)y1 = 2 * np.sin(x)y2 = 2 * np.cos(x)plt.plot(x, y1, label='y1=sinx')plt.plot(x, y2, label='y2=cosx')list = [-2.2355, -1.1547, 0.2578,.原创 2021-07-21 10:18:05 · 1030 阅读 · 0 评论 -
【NLP】AutoRegressive Language Model
一、文件写入FileWriterpackage model;import java.io.FileWriter;import java.io.IOException;public class FileWriterTester { public static void main(String[] args) throws IOException { // TODO Auto-generated method stub String fileName = "hello.txt";原创 2020-11-01 20:12:25 · 1545 阅读 · 0 评论 -
【数据挖掘】通过两点的经纬度高效计算实际的地球球面距离
由于地球是存在弧度的,所以在已知两点经纬度的情况下直接计算直线距离在一些场景下并不可取的,在计算过程中需要考虑到地球赤道半径等参数,从而得到真实的地球球面距离。在这里将一些计算方法记录下来,方便之后作为工具直接调用。仅使用math库进行距离计算直线距离def get_distance_function(latA, lonA, latB, lonB): ra = 6378140 # 赤道半径 rb = 6356755 # 极半径 flatten = (ra - rb) /原创 2021-07-15 19:08:37 · 883 阅读 · 4 评论 -
【数据挖掘】XGBoost的多输出标签(multi-label)预测攻略MultiOutputRegressor/MultiOutputClassifier
之前一直在想一个问题:我可以用Softmax回归做多分类问题(判断图中是猫还是狗还是大象),但如果是多标签呢?(同时要判断图中衣服的款式、颜色和大小)这个问题一直留在我心中,我也去找了多标签分类/回归的推导,但是仍然不知道如何通过代码实现这个多标签预测问题。这次在做多标签预测时,发现了sklearn库竟然是可以直接支持多标签预测及指标衡量的!不管我们有多少个不同独立的labels,都可以通过sklearn将多个标签包裹在其中,进行一次性的训练,并得到最终的损失/精度指标。要使用的就是:sklearn中的原创 2021-07-14 16:20:43 · 6699 阅读 · 4 评论 -
【数据挖掘】多特征组合的基本方法
举个相当简单的例子:在一个csv文件中(已经通过pandas读入为data),需要通过服装的颜色、风格、销量和类别去预测其价格。每个特征分别属于一列,现在我们要组合(已经预处理好的)特征,有如下的写法:先选出特征对应的列名,再得到所有选取的特征features_select = ['color', 'style', 'sale', 'category']combine_features = data[features_select]features_dummies = pd.get_dummi原创 2021-07-13 17:08:33 · 2377 阅读 · 0 评论 -
如何下载安装whl轮子以及确定Python适配版本
1 配置好Python环境这个默认是已经配置好了,也能在编辑器正常编译运行Python程序。同时,也能正常使用pip包管理工具进行第三方库的下载安装。或者,根据自己的环境需要,能进入到自己的Python虚拟环境下工作,命令:activate env_name。如上均是下载安装whl文件的前提条件,这里不会展开说明…2 安装wheelpip install wheel3 下载whl轮子文件(重点是如何确定适配版本)给两个常用的资源链接:https://pypi.org/https://ww原创 2021-07-12 14:44:21 · 34806 阅读 · 9 评论 -
【目标检测】Yolov5训练自己的数据集、设计危险区域判定算法及模型部署(持续更新)
简单说明一下在这篇文章中我要完成的任务:识别出图像中的窗户和儿童位置,并对儿童是否身处窗户内的危险区域进行算法判断,最终反馈给后端一个安全或危险的信号。将训练好的模型和设计好的算法部署在Jetson Nano设备上,以便深度学习的推理以及与后端的交互。毕竟我是负责深度学习这部分的,所以本文我着重讲一下几个方面(当然一定是各位读者非常希望学习到的知识):如何配置yolov5所需环境、如何处理可能遇到的bug、如何收集自己需要的图片数据集、如何给图片标注标签、如何制作自己的配置文件、如何修改优化模型参数、如.原创 2021-07-08 01:15:46 · 3545 阅读 · 6 评论 -
一些有关Ensemble Learning的学习记录
首先是上周花了三四天时间大致看了看Ensemble Learning的一些知识,原理尚未很深入去学,宏观上理解了一下集成学习的思想和一些实现原理。主要是学习了并行模型bagging和串行模型boosting两种,以及堆叠式的stacking。集成策略主要是avg vote和learning combiner三种。文章目录1 集成学习手写笔记2 Ensemble Learning Demo2.1 Voting2.2 Bagging2.3 AdaBoost2.4 XGBoost2.5 CatBoost原创 2021-06-13 00:03:51 · 368 阅读 · 8 评论 -
记录yolov5出现UnicodeDecodeError中gbk解码问题的解决
好不容易把数据集标好,开始训练,然后发现反复出现如下报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0x8b in position 233: illegal multibyte sequence然后奇怪的是,每次报错的position还不一样!说来说去,还是在读入训练集和测试集图片那里出现了问题。真的就是把配置文件的路径改了又改,默认参数改了又改,yolov5整套模型又重新去GitHub装上一版,请教了很多学长,最后的结果是——AGAIN!原创 2021-06-16 22:19:48 · 8048 阅读 · 26 评论 -
JupyterLab不能在Pytorch虚拟环境下import torch?
本文比较啰嗦,我喜欢把一个问题的“前生后世”描述清楚(读者有耐心可以当故事看/滑稽.jpg),看解决方法直接点击目录跳转即可。提前概括本文要讲的内容:在装好Pytorch的虚拟环境下,为什么JupyterNotebook可以import torch,而JupyterLab不能?JupyterLab作为新一代JupyterNotebook,应该如何配置才能使用torch框架?文章目录现在开始正式说明如何在JupyterLab中使用torch在之前一篇文章中我写了详细的教程,是关于如何安装Anacond原创 2021-06-15 14:51:53 · 3829 阅读 · 12 评论 -
这可能是一篇最贴心的Anaconda指北了(踩坑点)
刚从Python3.7+pip转Anaconda+conda的配置坑里爬出来,写篇blog记录一些细节。1 为啥要装Anaconda?下面的几点是我想到哪写到哪,比较零散,大家看个大概,懂个意思就????Anaconda是Python的一个发行版,其实就是一个Python的集成环境管理器,其中包含了Python以及许多常用的库,比如numpy、pandas等,另外!还包含了一个名为conda的包管理器。Anaconda一举多得,一旦装了Anaconda,就代表你已经装好了Python编译器以及众原创 2021-05-25 16:04:20 · 1606 阅读 · 16 评论 -
【机器学习】K近邻(KNN)算法详解
文章目录一、算法介绍二、距离度量三、K值的选择四、算法流程一、算法介绍KNN(K Near Neighbor):k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。KNN算法属于监督学习方式的分类算法,我的理解就是计算某给点到每个点的距离作为相似度的反馈。简单来讲,KNN就是“近朱者赤,近墨者黑”的一种分类算法。要区分一下聚类(如Kmeans等),KNN是监督学习分类,而Kmeans是无监督学习的聚类,聚类将无标签的数据分成不同的簇。二、距离度量特征连续:距离函数选用曼哈顿距离(原创 2021-03-01 00:10:18 · 10855 阅读 · 1 评论 -
Tensorflow框架下优化NN神经网络模型
文章目录一、写在开始二、标准的简单神经网络三、神经网络模型的优化设计四、网络优化小结一、写在开始mnist手写集是非常经典的分类数据集,在上一篇有关mnist的文章中,我用到keras框架搭建全连接神经网络DNN,当然是一个非常简单的模型,准确度达到97%。那篇文章重在解析mnist数据集,例如呈现28x28像素图像、数字对应卡片等,而不是重在构建网络的过程。所以对mnist数据集尚未了解的同学呢,推荐从那里开始学习。mnist数据集是二维图像的形式,最适合这种数据集的分类应该是CNN卷积神经网络,原创 2020-12-11 14:07:29 · 347 阅读 · 0 评论 -
windows系统下使用pip命令安装pytorch库
直接使用pip install torch出现版本问题报错!改进:使用指定指令进行安装操作!官方命令链接:Start Locally | PyTorchcommand:pip install torch===1.6.0 torchvision===0.7.0 -f https://download.pytorch.org/whl/torch_stable.html安装成功:...原创 2020-10-10 01:26:31 · 765 阅读 · 0 评论 -
机器学习 | Kaggle鸢尾花数据集Iris训练
机器学习 | Kaggle鸢尾花数据集Iris训练 Wenxuan Zeng 2020.10.3一、准备工作:引入机器学习库# 引入机器学习库from sklearn.linear_model import LogisticRegressionfro.原创 2020-10-04 11:28:56 · 3537 阅读 · 4 评论 -
机器学习基础 | windows系统下python第三方库基础
文章目录一、换镜像(一)临时使用(二)设为默认(三)备选方案二、配置python环境三、保证gcc/g++环境四、pip工具(一)检查安装(二)安装pip(三)升级pip(四)查看已安装包列表五、安装第三方库六、第三方库文件目录七、在python中引入库上学期很多同学都遇到相同的问题,在学习python写项目时,在第三方库的安装上出现问题,但是可以说,装第三方库算是学习的一个起点,一定要熟悉这...原创 2020-04-12 11:30:22 · 462 阅读 · 0 评论 -
用tensorflow搭建mnist全连接神经网络
#避免不必要的警告import warningswarnings.filterwarnings("ignore")#初步导包import numpy as npimport matplotlib.pyplot as pltimport matplotlib.cm as cm%matplotlib inline#将绘图嵌入jupyter notebook#从keras库导入mnis...原创 2020-01-26 20:31:26 · 1048 阅读 · 0 评论 -
(新手向)零基础探究机器学习Crime_Prediction
Kaggle_Crime_Prediction题目回顾题目名称:犯罪预测题目简介:你需要根据相关数据来预测可能发生的犯罪类型。 训练数据位于train.csv,测试数据位于test.csv,最终你需要提交你对测试集的预测结果。数据介绍:此数据集包含来⾃犯罪事件报告系统事件。 数据范围为1/1/2003⾄2015年5⽉13⽇。每条数据仅包含 ⼀种犯罪。数据字段:Dates - 犯罪事件的时...原创 2019-12-09 19:44:05 · 946 阅读 · 1 评论