HxShine-CSDN博客

原创 TransE解读

Paper地址1 目标学习三元组的向量表达2 算法大致思路:初始化+归一化遍历数据构造错误样本训练计算loss函数根据loss优化三元组的向量表达3 优化方法这个是loss函数的计算方法和负样本的挑选方法loss函数(优化目标):正确的三元组比假造的三元组头向量+关系向量-尾向量的差小，优化正确三元组的$ d(h+l,t) 减去假的三元组的减去假的三元组的减...

2019-11-18 16:11:45 2867 1

原创 Pathway-Finder: An Interactive Recommender System for Supporting Personalized Care Pathways论文解读

Pathway-Finder: An Interactive Recommender System for Supporting Personalized Care PathwaysAbstract临床路径优化治疗效果和资源分配，本文提出Pathway-Finder，交互式的推荐系统去可视化探索和发现临床路径。有效的收集和展示患者的信息，提支持有效的个性化的治疗计划，Pathway-Find...

2019-08-07 17:54:20 203

原创 Data-driven modeling of clinical pathways using electronic health records论文解读

Data-driven modeling of clinical pathways using electronic health records根据临床路径来聚类对临床路径的分类来探索路径不同的原因临床路径预测模型病人治疗应该是有个性化差异的相似病情特征的病人分到同一组，而不是像医生那样，只是看诊断。假设有一种临床路径可以将病人分开，相当于一种病人有一K-种适应的临床路径。风险预...

2019-08-07 17:09:11 373

原创如何做特征选择？

1 参考链接Topic 6. Feature Engineering and Feature Selectionhttps://www.kaggle.com/kashnitsky/topic-6-feature-engineering-and-feature-selection结合Scikit-learn介绍几种常用的特征选择方法https://blog.csdn.net/LY_ysys6...

2019-08-05 13:22:58 678

翻译 lightgbm回归模型分类模型基本框架

#https://www.kaggle.com/kernels/scriptcontent/16357888/downloadimport numpy as npimport pandas as pdimport timeimport matplotlib.pyplot as pltimport seaborn as snsfrom tqdm import tqdm_notebook...

2019-07-30 17:57:34 4428

原创 xgboost算法推导

1.推导思路目标函数目标函数泰勒展开合并正则项(遍历样本到遍历页节点)目标函数最小值(求导为0)得到参数的解2.详细推导2.1 目标函数lt=∑i=1Nl(yt,y)+γT+λ∑j=1Twj=∑i=1N[l(yt−1,y)+f(x)]+γT+λ∑j=1Twjl^{t}=\sum_{i=1}^{N}l(y^{t},y)+\gamma T + \lambda \sum_{j=1}^...

2019-07-15 10:29:55 392

原创 google bert 论文阅读

1.原文解读Bidirectional Encoder Representations from Transformers，bert，根据字面意思，训练的其实还是一个embedding，而且还是一个字级别的word embedding，通过这个embedding，有两种用法，一种是将其作为特征，训练特定的任务时候，不学习这些参数，通过设计特定的架构来实现不同的任务，第二种是将其作为骨干网络，然...

2019-01-03 21:36:19 1519

原创 tf-idf理解与使用

一、tf-idf总结是由tf和idf两部分相乘得到1.tf该个句子里面各个单词的词频，词频越高反应的是这个句子对这个词特别看重，讲的主旨应该也是跟这个有关。2.idf统计的是log10语料库句子总数/包含该词组的句子的个数log_{10}^{语料库句子总数/包含该词组的句子的个数}log10语料库句子总数/包含该词组的句子的个数,反应的是这个词组重不重要，因为这个词组在所有句子都出现的话...

2018-12-25 14:47:59 1071

原创 pytorch 使用

1 DataParallelfrom torch.nn import DataParallelnet = DataParallel(net)可以实现模块级别（？好处具体是啥不大懂）的并行计算，可以将一个模块forward部分分到各个gpu去计算，然后backwards时，合并gradients 到original module。 >>> net = torch.nn.DataParallel

2017-05-20 11:08:49 3770

原创 keras使用

1数据http://pan.baidu.com/s/1qCdS6 来自http://blog.csdn.net/u012162613/article/details/453970332 keras使用（jupyter notebook）参考： https://elitedatascience.com/keras-tutorial-deep-learning-in-python#step-4mni

2017-04-12 21:27:55 1700

原创 3 linux下jni的使用

一配置linux环境并测试1 java环境 http://www.jianshu.com/p/e5d8b62aed89 2 linux怎么跑跑java程序 2.1 错误代码文件名与类名要相同public class HelloWorld { public static void main(String args[]) { System.out.println("H

2017-03-10 15:22:31 681

原创 Tensoflow学习记录13--用深度学习来做图像分割Fully Convolutional Networks for Semantic Segmentation (FCNs)

1 文章及其地址 Fully Convolutional Networks for Semantic Segmentation (FCNs) http://arxiv.org/pdf/1605.06211v1.pdf2 总述感觉就是在vgg网络的基础上，将最后三层全连接改为cnn，即全都为卷积层了，fully convolutional networks，然后再反卷积，使输出与原始图像一致，这

2017-02-21 10:48:26 6817 6

原创 Tensoflow学习记录12--resnet网络

综述前面俩小节已经讲了经典的alex-net和vgg网络，vgg-net在alex网络的基础上，测试了很多种加深网络的方式，得到了vgg16和vgg19最后的结果还不错，但是后来人们发现，在网络深度到达一定程度后，继续加深网络，会有俩个问题，一个是太远了，梯度消失，即数据分散在不再被激活的那个区域导致梯度为0消失了，这个可以通过norimalized核intermediate narmalizati

2017-02-09 02:41:38 2223

原创 Tensorflow学习记录10--tensorboard的使用

1 简介tensorboard可以追踪loss以及accuracy的变化，追踪参数值w以及b的变化，以及可以显示卷积过程中的图像等等。2 使用方式1 首先标记要记录的参数图像,值以及变量:#图像tf.image_summary(tag, tensor, max_images=3, collections=None, name=None)#值tf.scalar_summary(tags, val

2017-02-07 23:56:01 6597 2

原创 Tensorflow学习记录10--VGG网络

点我下载paper1 VGG网络总结感觉就是再alex-net的基础上，研究了下如何加深网络来提高性能的。总体上也是五层卷积加上三层全链接，但是这五层卷积中都会以pooling来分割，且五层卷积尝试叠加多层卷积再一起，并且尝试以更小的核以及提高核的数量来提高网络的性能，比如alex-net的核的大小为11×11×96不等，vgg网络一般都是用3×3的核，但是她核的数量提高了很多，有3×3×256不等

2017-02-02 20:47:30 13246

原创 1 ubuntu下编译安装opencv2详细教程以及python调用opencv方法

一、依赖包的安装1. build-essential 软件包，为编译程序提供必需软件包的列表信息，这样软件包才知道头文件、库函数在哪里。sudo apt-get install build-essential2. 下面依赖关系主要是为了能够支持读写图片以及视频等。sudo apt-get install libgtk2.0-dev libavcodec-dev libavformat-dev l

2017-01-18 16:02:40 5230

原创简谈用g++编译运行c++代码流程，以及动态库静态库的创建与使用

一 g++ 编译运行hello world1编写hello world 代码#include<iostream>using namespace std;int main(){ cout << "hello world!" << endl; return 0;}2 编译及运行自动生成了a.out可执行的文件huxiang@shenyong-Opt790:~/work/cpp$ g++ h

2017-01-13 18:22:26 6873

原创 1 神经网络反向传播算法推导流程

下面这俩篇文章不错Back-propagation, an introduction1 why 反向传播算法? 1.神经网络损失函数是什么？ 2.怎样通过损失函数来更新模型参数，即w,b？ 3.重点是如何求损失函数对每一层w,b的导数，假如很多层，如何计算更有效？ 4.更新的表达式是什么？ 2 反向传播算法的优点？通过下一层的参数更新值来求这一层的更新值，加快求导过程，即

2017-01-03 10:10:54 1207

原创 14 python异常处理，调试，单元测试以及文档测试

1 python错误处理1 try的运行机制利用打印错误这种方式很lowdef bar(): r = foo() if r==(-1): print('Error') else: pass所以高级语言通常都内置了一套try…except…finally…的错误处理机制，Python也不例外。try: print('try...')

2016-12-29 16:03:05 1972

翻译 TensorFlow学习记录-- 8.TensorFlow之如何构建漂亮的模型

原文： Structuring Your TensorFlow Models1 定义一个计算图（传统方法）一般的，一个模型需要链接输入数据，标签，并提供trainning,evaluation和inference操作。普通的构造方法如下：class Model: def __init__(self, data, target): data_size = int(data.ge

2016-12-21 17:08:39 1439

原创 2 Connectionist Temporal Classification在语音识别中的运用(未完待续)

一摘要RNN运用到序列的学习中很有用，但是还是需要预处理数据，即例如处理语音数据，之前每一帧的输入需要对应一个label，本文直接利用RNN处理未预处理的数据，并在TIMIT语料库中进行实验，相对HMM和HMM-RNN取得明显的优势。二 CTC详细介绍１之前的方式之前手写数字识别，语音识别，姿态识别都需要对数据进行预处理，即分割成letters或者word。如今hidden Markov Mo

2016-12-07 10:14:38 3741

原创机器学习2——分类和逻辑回归Classification and logistic regression(牛顿法待研究)

不同于回归问题，分类问题是指预测值y只有几个离散的值，这里只讲binary classification 二分类问题，即y只取0，1。Logistic regression1 why logistic fuction？为什么选择sigmoid函数？(1) 如何将标签映射到0，1？ sigmoid函数及图如下：函数：图： (2) 所以要将标签映射到0，1。我们的假设函数可以设为

2016-12-06 23:42:47 1500

原创机器学习1——线性回归Linear Regression

1 线性回归的使用1 解决的问题：依照一些房子的面积Living area和卧室的个数bedrooms，以及价格price的数据，构建模型来预测给定面积和卧室个数的房间的价格price。 2 构建线性模型 hθ(x) = θ0 + θ1x1 + θ2x2 也可以写作： 3 构建损失函数即为预测值和真实值的差别，平方和1/2都是为了方便求导。 4 LMS算法一批量梯

2016-12-06 20:43:42 686

原创 TensorFlow学习记录-- ７.TensorFlow高效读取数据之tfrecord详细解读

一 why tfrecord?对于数据量较小而言，可能一般选择直接将数据加载进内存，然后再分batch输入网络进行训练（tip:使用这种方法时，结合yield 使用更为简洁，大家自己尝试一下吧，我就不赘述了）。但是，如果数据量较大，这样的方法就不适用了，因为太耗内存，所以这时最好使用tensorflow提供的队列queue，也就是第二种方法从文件读取数据。对于一些特定的读取，比如csv文件格式，官

2016-12-06 10:06:22 25528 1

原创 TensorFlow学习记录-- 6.百度warp-ctc 参数以及测试例子2解释

1 百度CTChttps://github.com/baidu-research/warp-ctc/blob/master/README.zh_cn.md2 CTC详解总的来说就是想不对齐标签，来设计一个loss，通过最小化这个loss，可以得到精确的识别效果(即最后还能在不对齐标签的情况下解码出来)，在语音识别方面效果和优势明显。未完待续3 解读百度warp-ctc参数以及例子1 ctc函数c

2016-12-02 17:15:20 5691

原创 TensorFlow学习记录-- 5.用lstm对手写数字进行识别(待修改，差增加rnn以及lstm的知识)

待修改二 Rnn_mnist1 整体解释整个结构为每次将batch=500，图片大小为28×28的数据,对于每张图片来说，每次一列一列的读入数据，即分成28个时间序列每次28个送入rnn网络进行训练，将最后一个时间点的输出output[-1]作为最终输出，其中隐藏层里面有 n_hidden=256个特征数，即最后输出out的特征的数量也是这么多，一般取最后一个out作为最终输出，最后一个out[-

2016-11-21 13:10:59 1410

原创 1.简谈语音识别中的WFTS

用WFST来表征ASR中的模型（HCLG），可以更方便的对这些模型进行融合和优化，于是可以作为一个简单而灵活的ASR的解码器（simple and flexible ASR decoder design）。利用WFTS，我们可以吧ctc label，lexicon(字典)，language models(语言模型)等模型结合起来，生成一个简单的search graph用于解码。 WFTS主要由

2016-11-17 13:47:07 4969

原创 TensorFlow学习记录-- 4.拟合曲线

一已知模型拟合直线这里先用numpy创建一些数据点x，然后计算出出标签y(加了一些正态分布的随机点),最后用tensorflow去拟合这些点。代码以及图1.构建点x和标签yimport numpy as npnum_points = 1000vectors_set = []for i in xrange(num_points): x1= np.random.normal(0.

2016-11-11 10:45:16 4140

原创 TensorFlow学习记录--3.MNIST从低级到高级(从全连接网络到卷积神经网络的解释)

一. MINST For ML Beginners(全连接网络)上一讲已经谈到了构建模型后，把数据丢进去，按照梯度下降法一步一步训练可以得到模型的参数。对图片处理，也是构建一种一种模型（图），然后扔给tensorflow去计算就好了。1.算法流程 1.构建图,上一讲TensorFLow运作模式及概念就提前给即将输入数据构建了一个线性模型，然后再计算出模型的参数，但是这里输入是手写数字的28

2016-11-06 10:56:20 3002

原创 TensorFlow学习记录--2.运行方式及基础概念

一 TensorFLow运作模式及概念运作模式 1.tensorflow是用python先构建一个图，然后通过外部运算优化得到结果 2.向模型不断喂入数据，然后给出要不断优化的对象loss，根据loss的走势不断优化模型得到结果概念 1.用python或者其他语言构建一个图 graph 2.图需要在会话session中运行 3.variable变量，tenso

2016-11-04 09:38:17 1772

原创 tensorflow学习记录--1.安装

一.入门网站用了俩天，感觉tensorflow就像是一个python的库（可以自行编译），所以安装的话可以很简单。 1.tensorflow官网安装方式，教程，api，等资源都可以在里面找到。 2.tensorflow中文社区官方对应的中文版本，但更新慢，建议使用官网。 1.安装这篇博客不错： TensorFlow 从入门到

2016-11-02 14:54:06 763

原创简谈动态规划

解决的问题 1.钢铁切割问题 2.0-1背包问题 3.PAT Find More Coins 总体思路 1.对于问题1，我们可以考虑钢铁切割第一刀是怎么切的，即将它分为俩个部分，对它遍历就可以找出获利最大的方案，即，Pi表示第一刀切在i，那么在加上后面的n-i的最佳切割方案Rn-i即是这种切割方案的最优解了，然后遍历这n中切割方案，获利最大即是我们要找的方案，并且

2016-08-16 11:25:25 433

原创简述dfs,bfs,Dijkstra思想及区别

在做pat的时候，用dfs写了一道题的解超时，看别人的解法时，发现别人用了Dijkstra算法，瞬间自己就混乱了，因为之前也看过Dijkstra，bfs算法，但是当时居然都傻傻分不清楚了，所以决定写一篇总结一下。一：广度优先算法(BFS) 先搜索邻居，搜完邻居再搜邻居的邻居。其中俩个思想：1.双端队列不为空则循环

2016-05-24 15:37:52 14953 3

原创简谈快速排序

最近在看算法导论，其实想很快看过去，看到快速排序时，看着他那官方的解释，总感觉耽搁了自己看书的速度，自己理解了后想写一篇能够让其他人能够快速理解快速排序的文章，这就是写这篇博客的原因。快速排序关键思想：取一个数（比如说一个数组最后的一个数），然后调整数组，使这个数组前半部分小于这个数，后半部分大于这个数，然后对前后半部分递归使用快速排序。比如最开始是这个样子的

2016-05-20 12:17:02 462

原创 ACL25 | DOLPHIN，Closed-loop Auto-research系统来帮你自动做科研了！

结论1: DOLPHIN开创了闭环自动科学研究的新范式。首次提出了一个由大型语言模型驱动的闭环框架，将想法生成、实验验证和结果反馈无缝集成，实现了研究过程的自动化和迭代优化。这对于加速科学发现、降低研发成本具有开创性意义。结论2: DOLPHIN能够生成高质量、可媲美甚至超越人类SOTA水平的科学想法和实现。通过任务属性引导的论文排序和基于embedding相似度去重，DOLPHIN能够提出新颖且非冗余的想法。

2025-06-11 10:29:28 349

原创 Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案

••••结论1：通过结合高质量大规模数据集、工具集成推理和生成式选择方法，可以构建在挑战性数学问题上达到最先进水平的语言模型。本文的方法在 AIMO-2 竞赛中的胜利以及在多个数学基准上的 SOTA 结果验证了这一策略的有效性。结论2：发布 OpenMathReasoning 数据集、OpenMath-Nemotron 模型和代码是社区的宝贵财富。

2025-04-29 14:10:40 693

原创符尧：仅靠数据工程我能将LLM的上下文检索能力拓展到128K

原来的工作例如[1]认为，长期上下文建模是一种新的能力，必须通过大规模训练来“注入”。这导致在基础模型上（例如Llama系列）进行上下文长度拓展，需要大量的数据继续训练才能获得这个能力。作者假设在大规模预训练中通常已经获得了利用任意输入位置信息的长上文建模能力，且这种能力可以通过轻量级的持续预训练与适当的数据混合轻松扩展到训练期间未见过的更长上下文（例如，从4K扩展到128K）。LLM的上下文长度非常重要，作者尝试从数据工程的角度，通过继续预训练来扩展LLM上下文的长度。

2024-03-07 12:50:07 1610

原创 EMNLP 2023 | LLM工业界快速落地之PromptMix: 一种有效的混合数据增强策略将LLM能力迁移到小模型

这篇论文介绍了PromptMix，一种新颖的类边界数据增强方法，用于在训练数据有限的情况下提高大型语言模型的文本分类效果。该方法通过生成挑战性文本并结合Relabeling策略，生成类别精确的难样本，以便更好地迁移大型模型（如GPT3.5-turbo）的知识到更小、更经济高效的分类器（如DistilBERT和BERTbase）。论文的实验表明，PromptMix在2-shot场景中的效果优于多个5-shot数据增强方法。

2024-03-06 14:29:23 1150

原创开源版视频Diffusion Transformer来了吗？

视频生成技术如何提高生成质量是一个难题，如何更好的挖掘时序、空间的信息？采用何种架构对模型进行建模？这些都值得探索。本文提出了一个全新的Latent Diffusion Transformer，名为Latte，用于视频生成。其目标是在潜在空间中对视频分布进行建模，并提高生成视频的质量。亮点总结:Latte采用Transformer技术实现了视频生成的模型革新。创新性地提取空间-时间标记并在潜在空间建模视频，效果在多个视频生成数据集上取得sota。四种效率变体的引入允许更灵活地处理视频数据。

2024-03-01 21:10:39 1714

原创符尧：别卷大模型训练了，来卷数据吧！【干货十足】

文章地址：https://本文回顾了语言模型学习的一些现象grokking, log-linear scaling law, emergent abilities，以及影响学习速度的数据因素data format, mix ratio, and curriculum（数据格式、混合比例和课程）。总结1: 数据工程的目标是建立一种理论并指导我们做数据（以及其他重要的学习因素），以便我们可以在没写一行代码时就可预测每项任务的最终表现（而不仅仅是预训练损失）。

2023-10-17 09:02:46 435

algo.tar.gz

空空如也