机器学习
文章平均质量分 85
submarineas
不积跬步,无以至千里
展开
-
sais复杂推理能力评估笔记(一):baseline简介
初赛数据集为逻辑推理数据,其中训练集中包含500条训练数据,测试集中包含500条测试数据。每个问题包括若干子问题,每个子问题为单项选择题,选项不定(最多5个)。目标是为每个子问题选择一个正确答案。推理答案基于闭世界假设(closed-world assumption),即未观测事实或者无法推断的事实为假。具体的,每条训练数据包含 , 字段,其中是题干,为具体的子问题。是一个子问题列表,每个子问题包括和字段,其中是一个列表,包含具体的选项,按照ABCDE顺序排列,是标准答案。具体的,我们来看一个例子,选自测试原创 2024-08-04 20:21:08 · 743 阅读 · 0 评论 -
bird 2023 比赛总结
在jupyter notebook中一般能直接播放该音频,算是librosa做了相应的兼容,然后将声音波段不加任何处理直接画出,可以看出来很嘈杂,主要没有调节频率,也没有提取出特征,所以更进一步的还有Spectograms(光谱图)Mel Spectograms(梅尔光/频谱)Chromagram(色谱图)Waveforms:在音频处理中,波形是声音信号的图形表示,显示了信号随时间的变化。它是 y 轴上声波振幅与 x 轴上时间的关系图。原创 2023-05-30 15:54:52 · 1918 阅读 · 0 评论 -
Google - ISLR 比赛总结
首先,该层在_init_方法中创建了一个名为的常量。该常量是一个矩阵,其行数等于数据中特定类型的标志点的数量,列数是 3(即 x、y 和 z 坐标)。这个矩阵用于校正相机的拍摄方向,将左手调整为右手,右手调整为左手。该层还定义了一个名为pad_edge的方法,用于在给定张量的左侧或右侧填充一定数量的重复元素。接下来,该层使用装饰器装饰了一个_call_方法,用于处理输入数据。该方法首先计算了输入数据的帧数(N_FRAMES0),然后通过计算左右手各自在数据中的坐标之和,找到了数据中支配性手的标志点。原创 2023-05-05 22:36:36 · 630 阅读 · 0 评论 -
Stable Diffusion搭建全过程记录,生成自己的专属艺术照
项目开发领导者有两位,分别是 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser,和慕尼黑大学机器视觉学习组的 Robin Romabach。这个项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜伏扩散模型 (Latent Diffusion Model) 研究。在训练方面,模型采用了4000台 A100 显卡集群,用了一个月时间。原创 2022-09-01 18:37:09 · 44772 阅读 · 25 评论 -
知识图谱构建实验笔记(二):知识图谱搭建过程与总结
文章目录引言命名实体识别1. 数据预处理2. 构建模型并预测3. 总结关系抽取1. 数据预处理2. 模型构建并预测3. 总结数据入库load csv方式neo4j-admin import方式与Cypher用法GitHub项目实验参考与推荐引言本篇记上篇原理后对整个构建知识图谱的过程进行一个比较系统的实践过程。同样,实验代码记录自实验楼的射雕英雄传,根据个人习惯与理解程度,进行了重新排版与修改,实验过程与结果在个人腾讯云上完成。命名实体识别1. 数据预处理原始文本和标签分别定义为:raw_tex原创 2022-03-19 19:37:49 · 4023 阅读 · 5 评论 -
知识图谱构建实验笔记(一):环境搭建与试验原理介绍
引言最近刚在实验楼做了这个关于知识图谱的课程,想总结点什么,也勾起了我的一点回忆,因为最早我写博客就是为了记录一些我对web与nlp还有爬虫的笔记,博客标签上就是标的这些。结果最后发现这三者我都没有在继续做下去了,而是工作于视频图像,有够戏剧化的,所以这里,想找回一点当年那种感觉。知识图谱架构根据一文揭秘!自底向上构建知识图谱全过程,构建知识图谱一般分为3个部分,分别为:信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;知识融合:在获得新知原创 2022-03-19 11:16:50 · 2860 阅读 · 0 评论 -
lightgbm打卡笔记(一):部署与分类预测可视化
lightgbm的安装CPU安装方式默认CPU:pip install lightgbmGPU安装方式GPU安装方式有点难,如果是在linux下,预装环境需要编译的东西有点多,详情见上一篇为:linux下openssl、cmake与boost的更新总结如果确保了cmake是在3.16版本以上,boost这些前置环境编译成功,那么就可以编译lightgbm了。1. 从源码安装lightgbmgit clone --recursive https://github.com/microsoft原创 2022-01-14 18:35:51 · 2429 阅读 · 2 评论 -
H2O自动化机器学习框架介绍与搭建笔记
引言H2O 是一个用于分布式、可扩展机器学习的内存平台。H2O 使用熟悉的界面,如 R、Python、Scala、Java、JSON 和 Flow notebook/web 界面,并与 Hadoop 和 Spark 等大数据技术无缝协作。H2O 提供了许多流行算法的实现,例如广义线性模型 (GLM)、梯度提升机(包括 XGBoost)、随机森林、深度神经网络、堆叠集成、朴素贝叶斯、广义加性模型 (GAM)、Cox 比例风险、K- Means、PCA、Word2Vec,以及全自动机器学习算法(H2O Au原创 2021-12-28 18:49:53 · 6112 阅读 · 4 评论 -
食物声音识别笔记总结
引言赛题以语音识别为背景,要求选手使用提供的语音数据训练模型并完成语音分类的任务。数据集来自Eating Sound Collection,数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。作为零基础入门语音识别的新人赛,本次任务不涉及复杂的声音模型、语言模型,希望大家通过两种baseline的学习能体验到语音识别的乐趣。数据介绍train文件夹:完整的训练集;train_sample文件夹:部分训练集;test文件夹:测试集;赛题包含的类别:aloeic原创 2021-04-13 22:01:02 · 718 阅读 · 4 评论 -
地表建筑物识别笔记总结
引言赛题介绍遥感技术已成为获取地表覆盖信息最为行之有效的手段,遥感技术已经成功应用于地表覆盖检测、植被面积检测和建筑物检测任务。本赛题使用航拍数据,需要参赛选手完成地表建筑物识别,将地表航拍图像素划分为有建筑物和无建筑物两类。赛题数据来源(Inria Aerial Image Labeling),并进行拆分处理。数据集报名后可见并可下载。赛题数据为航拍图,需要参赛选手识别图片中的地表建筑具体像素位置。train_mask.csv:存储图片的标注的rle编码;train和test文件夹:存储训原创 2021-02-20 20:30:25 · 3217 阅读 · 4 评论 -
pytorch与街景识别学习笔记
赛题数据赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。FieldDescriptiontop左上角坐标Yheight字符高度left左上角坐标Xwidth字符宽度label字符编码评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好,具体计算公式如下:score=编码识别原创 2020-12-15 23:08:14 · 807 阅读 · 2 评论 -
贷款违约预测学习笔记
赛题介绍链接:https://tianchi.aliyun.com/competition/entrance/531830/information赛题数据赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏原创 2020-09-13 21:08:30 · 4549 阅读 · 0 评论 -
新闻文本分类学习笔记
赛题介绍地址:https://tianchi.aliyun.com/competition/entrance/531810/introduction赛题背景:要求选手根据新闻文本字符对新闻的类别进行分类带大家接触NLP的预处理、模型构建和模型训练等知识点。为本赛题定制了系列学习方案,其中包括数据科学库、通用流程和 baseline方案学习三部分。赛题数据:赛题数据为,新闻文本按照字符级别进行匿名处理整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时原创 2020-07-22 23:43:02 · 2550 阅读 · 0 评论 -
Linux下从0开始GPU环境搭建与启动测试
引言算法环境cudnn 7.4.1cuda 10.0tensorflow-gpu1.14.0torch1.3.1torchvision==0.4.2框架搭建CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。cuDNN(CUDA Deep Neural Network library):是NVIDIA打造的针对深度神经网络的加速库原创 2020-06-13 18:43:33 · 6582 阅读 · 0 评论 -
词向量模型(word2vec)总结笔记
引言自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”提出词向量的概念后,NLP领域仿佛一下子进入了embedding的世界,Sentence2Vec、Doc2Vec、Everything2Vec。词向量基于语言模型的假设——“一个词的含义可以由它的上下文推断得出“,提出了词的Distr...原创 2020-02-19 20:09:07 · 1106 阅读 · 0 评论 -
文本分词与循环神经网络笔记
分词关于分词,目前有三大主流分词方法:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。而本篇笔记主要讲的,是基于统计的分词方法统计分词方法**主要思想:**每个字都是词的最小单元,如果相连的字在不同的文本中出现的频率越多,这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性,当频率高于某个阈值时,我们可以认为这些字可能会构成一个词。主要统计模型: N元文...原创 2020-02-14 19:08:18 · 659 阅读 · 0 评论 -
LR与softmax损失函数总结笔记
LR中的损失函数在线性回归中损失函数的推导是根据一个假设——若误差是独立同分布,那么根据中心极限定理可以知道这个误差服从均值为0,它的方差为σ2\sigma^{2}σ2,则可以得到进一步的推导到对数似然函数,也就是损失函数:ℓ(θ)=logL(θ)=log∏i=1m12πσexp(−(y(i)−θTx(i))22σ2)=∑i=1mlog12πσexp(−(y(i)−θTx(i))22...原创 2020-02-13 20:10:18 · 702 阅读 · 1 评论 -
房价租金预测总结笔记
问题与数据说明任务 本次赛题主要是通过房产市场、租赁市场、市场需求以及房屋配置来做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响。命题方向为运用机器学习、人工智能等模型算法,结合模型的创新能力,来实现准确预测的目的。数据 线上比赛要求参赛选手根据给定的数据集,建立模型,预测房屋租金。 数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实...原创 2020-01-06 21:38:32 · 3421 阅读 · 3 评论 -
从线性回归到梯度下降法详细笔记
θ∗=argmaxθ(∫q(x)logp(x;θ)dx−∫q(x)logq(x)dx)=argmaxθ∫q(x)(logp(x;θ)−logq(x))dx=argmaxθ∫q(x)logp(x;θ)q(x)dx\begin{aligned} \theta^{*}=& \underset{\theta}{\operatorname{argmax}}\left(\int q...原创 2019-12-05 20:43:38 · 424 阅读 · 0 评论 -
机器学习笔记:线性SVM推导
机器学习(1):SVM什么是SVMSVM实例SVM应用SVM解析总结文本样式列表链接代码片什么是SVM支持向量机简称SVM是最大化分类间隔的线性分类器,如果使用核函数,可以解决非线性问题。支持向量机的目标是寻找一个分类超平面,它不仅能正确的分类每一个样本,并且要使得每一类样本中距离超平面最近的样本到超平面的距离尽可能远。什么是SVM?我们可以知道SVM是一种二分类问题,那然后呢?SVM是一种...原创 2018-12-15 21:40:55 · 492 阅读 · 0 评论 -
jupyter notebook安装及使用总结
引言本篇博文综合了自己的一些使用过程中遭遇的问题,以及一些常用的快捷键,在这里做一个总结。jupyter notebook简介在数据科学领域,笔记、代码、图表和注释往往都是相辅相成不可或缺的,而应运而生的jupyter notebook满足了以上所有的要求,基本所有的不论是学生还是相关从业者都会去使用它,因为它的易学,操作简单,// An highlighted blockvar foo...原创 2018-12-27 23:27:32 · 4981 阅读 · 2 评论 -
kaggle(一):随机森林与泰坦尼克
引言随着2018年飞逝而过,2019悄然到来,我并没有什么太大的起伏去迎接新年,从上一篇博文截止到今天,好像是有接近一礼拜没有更文了,主要是最近正在参加一个建模比赛,导致原计划这两天要写的年终总结一推再推,另外还顺便报了个集训营,那么年终总结。。。So,不如来更新一篇kaggle小项目吧,趁现在还有时间,建模那边已经快到结尾了,年终总结等博客真正搭好的时候作为第一篇好了。虽然最近也并不是很想处理...原创 2019-01-04 23:56:43 · 5361 阅读 · 3 评论 -
集成学习(二):提升与梯度提升推导
引言自上节使用了随机森林与adaboost做了kaggle后,我便有一个问题,为什么对于泰坦尼克号来讲随进森林在其里面反而是最优的,同样是集成,为什么adaboost会稍微弱一筹呢?那么本篇,将在我理解的范围内,从理论上推导一下提升算法的过程。梯度的概念梯度可以说是一个方向,一个增长最快的方向,梯度的长度是这个最大的变化率.更严格的说,从欧氏空间Rn到R的函数的梯度是在Rn某一点最佳的线性近...原创 2019-01-07 00:09:52 · 749 阅读 · 0 评论 -
集成学习(三):adaboost算法推导
adaboost(Adaptive Boosting)AdaBoost的中文叫做自适应增强,由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。adaboost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法时的二类分类学习方法。具体算法如下:D1=(w...原创 2019-01-13 18:41:06 · 777 阅读 · 0 评论 -
tensorflow学习笔记(1):tensorflow基础与介绍
引言tensorflow介绍TensorFlow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。TensorFlow 是Google第二代大规模分布式深度学习框架。灵活通用的深度学习库端云结合的人工智能引擎高性能的基础平台软件跨平台的机器学习系统说明numpytensorflow构造数组a = np.z...原创 2019-06-25 22:59:27 · 1250 阅读 · 0 评论 -
集成学习(一):基础思维导图
这些天想把最近学的都整理一下,接着要开始复习算法了。原创 2018-11-25 20:20:26 · 1068 阅读 · 1 评论