JessssseYule-CSDN博客

原创学术随笔（三）：关于做出一个好工作的流程中期总结

最近在带本科生做研究，我发现自己做和带人做区别还是很大的，我本身是一个思维比较跳跃的人，每天都有很多想法，所以做起研究来好像也没遇到什么困难，真的遇到了困难就等灵感来，然后试验一下，一般都能解决问题，但带人做研究可不能这样搞，总不能叫师弟师妹每天等灵感搞科研吧，所以我也在总结整理出自己做研究的一套流程，当然我现在还没发顶刊，所以这个流程未必是最优的，以后也可能会更新新版本，权当一个总结，之后就可以按照流程带新生。一般来说，我们首先需要明确我们研究的大问题是什么，对新人来说，这可能需要导师指导，明确说清楚哪些

2022-07-02 01:09:24 576

原创学术随笔（二）：一篇好论文的标准

进入学术圈的第一年，我发了一篇三区一篇二区的，从什么都不懂到发论文的这个过程中，体会还是挺多的，这次就来聊聊一篇好文章的标准，对我来说意味着什么。首先可以从分区的角度来谈，一般来说中科院二区是一个分界线，发表二区及以上的文章有助于毕业之类的，而我第一篇是三区的，第二篇是二区的，我觉得三区和二区最重要的区别就在于整个文章的论述完整性，比如说，我的二区文章是做EEG降噪的，那么整个文章，我首先需要介绍我的模型，然后对比我的模型和其他传统模型的性能，对比包括模拟数据和真实数据，最后进一步分析降噪之后ERP分析和

2022-04-05 23:07:23 3795 1

原创学术随笔（一）：如何在一个新领域开始做研究

很久没有写文章了，以前写的很多是技术类文章，现在看回这些文章，有些地方感觉自己理解得还不够透彻，不知道能不能带给读者正确且准确的信息，另外也觉得，技术和模型更新迭代得太快，我可以勉强追着这个更新的速度学习，但要同步写文章总结还是太难了，最近思考了一下，比起一些技术类的东西，可能在学术过程中学习到的感悟对大家也会有帮助，所以就记录一下这一年来在学术圈学习到的一些感悟体会。首先我想谈谈如何开始做研究，这是一个很大的问题，可能比较适合高年级和本科生和研究生看，我不奢望自己能给出完美的答案，只是简单说说我的一些

2022-04-01 14:06:51 2319

原创脑机接口（三）：通俗讲解ICA思想（独立成分分析）

测量的EEG信号，可以认为是脑电信号和噪声的线性混合，所以对于EEG最重要的预处理就是从EEG数据中分离出干净的EEG和噪声，类似这样的问题称为盲源分离，指的是从多个观测到的混合信号中分析出没有预测的源信号。我们可以通过公式表示上述问题，x=Asx = Asx=Asx是我们观测到的（多通道）信号（所以是矩阵而不是一维向量），s是原始的（多通道）信号，A表示混合矩阵。这个问题最大的难点就在于，我们只有测量出来的混合信号x，对于源信号s和混合矩阵A我们一无所知，在这样的情况下其实s有无穷多个解。因此，

2021-05-14 10:53:48 2196

原创脑机接口（二）：EEG的测量与伪迹

一个完整的EGG测量应包含以下几部分：电极、带滤波器的放大器、模数转换器（analog-to-digital）和数据记录电脑。具体来说，头皮表面电极记录的电压信号通过放大器转换成适当的电压范围内的信号，然后通过模数转换器将信号从模拟电压格式转换为数字格式，最后通过记录电脑进行数据存储。电极根据电极的在EEG记录中的作用，电极可以分为三种类型：活动电极、参考电极和接地电极，每个单独的EEG电极的电压波形图可以看成是活动电极与参考电极之间电势差随时间的变化，而接地电极主要用于降低接地电环路产生的噪声。大多数

2021-05-11 11:29:24 1718

原创脑机接口（一）：背景知识

最近开始做脑机接口方面的研究，接触这方面的内容也有一两周了，于是打算整理一下最近学习到的一些知识点，同时我也希望把这个领域的内容写成一个系列的比较通俗易懂的文章，让感兴趣的朋友也可以了解脑机接口到底是怎么一回事。首先，脑机接口（Brain Computer Interface，BCI）的含义，就是采集和提取大脑产生的脑电信号，进一步进行分析处理，并与外部设备进行信息的传递与控制，从而实现中枢神经系统与体内或体外设备之间的交互。举个最简单的例子，我们可以在驾驶汽车的时候采集人脑的电信号，然后构建一个分类模

2021-05-08 16:41:10 2314

原创深度学习可解释性研究（二）： Understanding Black-box Predictions via Influence Functions（详细公式推导）

该文章从鲁棒性扰动的角度出发，对深度学习模型的可解释性进行分析。

2021-03-06 20:37:44 3149 2

原创深度学习可解释性研究（一）: Visualizing and Understanding Convolutional Networks

如果按照可解释性方法进行的过程进行划分的话，大概可以划分为三个大类：在建模之前的可解释性方法建立本身具备可解释性的模型在建模之后使用可解释性方法对模型作出解释

2021-03-02 12:46:24 1393

原创梳理数据预处理与特征工程全流程

最近对特征工程颇感兴趣，特别是看到很多数据分析的案例，他们在前面分析了一通，从简单的均值、方差等统计指标，到不同特征的分布都研究了一遍，但是最后直接就建模，感觉从特征工程到建模之间缺乏联系，所以我就在想，到底怎么正确地进行特征工程，怎么从特征工程中挖掘有用信息，辅助建模，这些都是很值得研究学习的问题。这一次，我想先研究一个问题，为什么我们需要探索数据，也就是所谓的EDA，从EDA中，我们希望探索些什么。特征工程对于特征有一个理想的要求，那就是不仅能表示出数据的主要特点，还需要符合模型的假设，所以经常需要

2021-01-18 10:54:41 1633

原创机器学习经典模型：支持向量机

支持向量机涉及到的理论还是比较复杂的，特别是关于模型参数的求解，很多文章都要详细的公式推导分析，这里主要从三个角度入手介绍支持向量机，一个是通常的应用场景，一个是模型的思想，一个是和深度学习模型的对比。支持向量机的主要应用场景还是二分类问题。对于一个二分类问题，分类的边界要么是线性要么是非线性的，所以我们先从线性边界开始讨论。对于n维线性可分的数据，n-1维的分类子空间称为超平面，像二维数据中的线、三维数据中的面都属于超平面，支持向量机的目标，就是找出一个超平面，对数据进行分类。继续以二维数据为例.

2021-01-05 10:48:19 1186

原创机器学习经典模型：集成学习——Boosting（Adaboost与gradient boosting）

集成学习中的boosting主要有两类，Adaboost和gradient boosting，而GBDT和XGboost都是gradient boosting的具体应用。Boosting和bagging相比，主要的区别在于基学习器之间是相互影响的，是串行训练的，具体来说，当前的学习器的训练是依赖于上一轮学习器的训练结果的，对上一轮学习错误的数据给与更多的关注。AdaBoost的主要思想是一边训练基学习器，一边调整训练数据的分布，使得该轮基学习器分类错误的数据，在下一轮的训练中能得到更多的权重，不断重复.

2021-01-04 21:56:06 2259

原创机器学习经典模型：集成学习——bagging

集成学习算法的基本思想是，通过将多个学习器组合，从而实现一个效果更好的集成学习器。集成学习的优点可以从三个角度出发进行分析，统计上，单一的学习算法可以理解为在一个假设空间中找到一个最好的假设，但是训练数据较小的时候，学习算法可以找到很多符合训练数据的学习器，最终不论选择哪个学习器，在某种情况下都可能存在严重的偏差，浴室就把多个假设集合起来，尽可能降低偏差。计算上，很多学习算法都可能陷入局部最优，集成算法可以从多个起始点可以进行局部搜索，降低模型陷入局部最优的风险。表示上，假设空间的任意一个假设都无法.

2021-01-04 21:55:57 1258

原创机器学习经典模型：决策树

决策树是一种分类模型，如下图：根据这棵树，我们就可以一步步进行判断。构建决策树的目标是希望每个分支节点包含的样本尽量属于同一个类别，为了衡量这种节点的纯度，引入了信息熵的概念，假设当前样本集合D中第k类样本所占的比例为pk，则D的信息熵定义为Ent(D)=−∑k=1∣y∣pklog2pkEnt(D) = -\sum_{k=1}^{|y|} p_k log_2 p_k Ent(D)=−k=1∑∣y∣pklog2pk上面的公式，可以简单算一下，假设现在一个节点有10个样本，一种情况是10个样本.

2021-01-04 21:55:49 746

原创机器学习经典模型：线性判别分析

最近打算重新把机器学习的经典模型重新学一遍，基本上是按着周志华老师的《机器学习》的顺序，挑选一些常用的模型学习总结。这次要介绍的是线性判别分析，LDA的经典应用场景是分类问题下的特征降维，比如说，医院对体检的病人，根据体检结果的各项指标，把病人的健康状况分为优、良、差三个类别，体检的各项指标就是特征，病人的健康状况就是分类的结果，基于分类结果对特征进行降维就是LDA所做的事情。简单来说，LDA的目标是使得降维后的数据，同一类的尽可能聚集，不同类的尽可能远离，LDA的实现过程其实就是对输入数据进行线.

2021-01-04 21:55:31 482

原创公式分析self attention如何解决一词多义问题

今天无意中想到了一个问题，之前一直都在说，embedding向量可能会包括多个语义，所以我们才需要BiLSTM或者self attention提取出这个词在句子中的具体含义，当时我还觉得这种说法有点玄乎，今天想了一下才发现确实有道理。首先我们要回顾一下word2vec，不论是CBOW还是skip-gram，它们的思路都是通过上下文的词来分析中心词的语义，上图就是一个简单的CBOW，假设我们完成了训练，那么中间的h就是embedding向量，通过与W’的线性变换，输出的是所有词中出现在其上下文中的概率，

2020-12-15 16:56:31 622

原创知识图谱系列（三）：基于医疗知识图谱实现简单的对话系统

之前我们已经构建了一个简单的医疗知识图谱，这次就来看看怎么利用这个知识图谱建一个简单的对话系统，构筑的流程还是参考之前的项目，以后我们再结合深度学习进行改进。上图就反映了这个对话系统的分析思路，整体上接近一个基于规则的对话系统，首先我们需要对用户输入进行分类，其实就是分析用户输入涉及到的实体及问题类型，也就是Neo4j中的node、property、relationship，然后我们利用分析出的信息，转化成Neo4j的查询语句，最后再把查询的结果返回给用户，就完成了一次问答。整体上涉及到三个模块，问题

2020-12-02 18:11:55 4947 3

原创知识图谱系列（二）：构建一个医疗知识图谱

之前我们简单介绍了怎么构建一个知识图谱，这次就来看看一个完整的构筑流程，以QASystemOnMedicalKG作为参考，主要想展示一下从最初收集非结构化的数据、到一步步处理并通过知识图谱展示的简单流程。具体的爬虫过程可以看看这个博客的文章，我主要想快速过一遍这个流程，看看最后知识图谱是如何辅助对话系统的。首先，我们的数据来源是寻医问药，随便打开一个疾病，可以看到基本的信息：需要爬取的信息包括疾病名、所属目录、症状、治疗方案等等，都可以从页面上获取，得到了这些信息，我们就可以构建知识图谱，思路上

2020-12-02 13:04:42 15310

原创知识图谱系列（一）：如何构建一个简单的知识图谱

之前在了解对话系统的时候，就发现其实一个有应用价值的对话系统，需要引入外部知识辅助决策分析，所以我就打算最近学习一下知识图谱，并尝试结合知识图谱构建一个对话系统。知识图谱是谷歌提出的一个概念，从定义上来说，知识图谱就是结构化的语义知识库，是一种基于图的数据结构，用于描述物理世界中的概念及其相互关系。既然是图就有边和节点，边指的是事物之间的关系，而节点这里简单地分成两种，第一种是实体，所谓实体就是指现实世界中的一些具体的事物，比如说一个人、一座城市、一家公司等等，都属于实体的范畴。除此之外，我们可以考虑一

2020-12-01 21:49:22 27152 8

原创对话系统在机票业务中的应用

最近打算深入研究对话系统，大致的计划是先了解对话系统在各个领域中的具体应用，看看其中涉及到的知识点、遇到的问题以及未来的发展方向，这次就先来看看去哪儿的机票业务智能客服。首先，我们需要了解机票业务的工作是什么，智能客服对于机票业务工作有什么帮助。一般来说，机票业务包括票号查询、购票、出票进度、出票问题、修改信息等等，对于客服而言，确定了具体的业务之后，需要根据订单的状况、航班的状况、客户的具体情况等信息给出合适的回答，这要求客服具备专业能力和信息获取能力。真人客服的数量终究是有限的，如果智能客服能帮助公

2020-11-12 19:38:04 371

原创深度学习建模训练总结（八）：如何处理梯度消失（爆炸）

在讨论如何处理梯度消失梯度爆炸的问题之前，先来看看梯度消失梯度爆炸的成因。梯度消失和梯度爆炸本质上是一样的，都是反向传播算法造成的。我们知道，一个神经网络就是一个一层层嵌套的非线性函数，假设现在模型一共有四层，我们求第二层的一个参数更新的梯度：δw2=∂Loss∂w2=∂Loss∂w2∂f4∂f3∂f3∂f2∂f2∂x2\delta w_2 = \frac{\partial Loss}{\partial w_2} = \frac{\partial Loss}{\partial w_2} \frac{\.

2020-11-12 09:57:58 1969 1

原创深度学习建模训练总结（七）：梳理NLP发展里程碑——BERT

bert是近两年非常火的模型，最近简单看了一下，确实有几个很惊艳的地方，这次就来看看bert到底是一个什么运作原理。在正式讨论bert之前，首先需要讨论transformer到底还有什么缺点，之前也提到，transformer完全可以看成是完美版本的RNN，它一方面能够实现动态输入输出，同时也避免了长期依赖的问题，但是，在实际应用的时候，人们还是发现了几点不足，作为特征提取器，直接使用transformer和LSTM、RNN一样，只能单向处理信息，即使使用双向transformer，也不是真正意义上的双向

2020-09-28 09:00:44 604

原创深度学习建模训练总结（六）：梳理NLP发展里程碑——细看transformer

之前也提到了，一般而言我们会采用LSTM处理输入的句子，根据上下文等信息调整词向量，但是LSTM终究有长期依赖问题，这是它的结构决定的，而self-attention的出现，既可以实现以上的目的，同时又避免了长期依赖问题，那为什么不用self-attention替代LSTM进行分析呢，这就是transformer提出的缘由。简单来说，transformer就是在seq2seq的基础上，引入multi-head attention，用注意力机制全面替代CNN、LSTM、RNN，从结构上来说，虽然看起来复.

2020-09-17 13:26:42 652

原创深度学习建模训练总结（五）：梳理NLP发展里程碑——各种注意力机制对比分析

之前提到，seq2seq的一大缺点是单一的语义向量难以表达长序列的完整语义，而改善这一问题的一个有效方法就是结合注意力机制，在不同的时刻针对输出计算包含不同语义的语义向量：所谓注意力机制，本质上就是在分析过程中引入权重，在本文，我主要介绍两种注意力计算框架：原始的计算框架和multi-head attention，从原始的框架中又进一步划分为：soft attention（key=value）、soft attention（key!=value）、self-attention（query=key=va.

2020-09-17 13:22:58 6807 1

原创深度学习建模训练总结（四）：梳理NLP发展里程碑——seq2seq

因为我自己是比较希望做NLP方向的研究，之前简单回顾了一下基础的神经网络之后，接下来打算就从NLP的角度，来看看模型是怎么一步步改进发展的。对于自然语言处理，首先想到的问题肯定是怎么把自然语言转化为向数字表示，毕竟机器没办法理解人类的语言，只能处理数字，所以人们就研究出了很多embedding模型，关于embedding我想在之后详细谈谈，这里先暂时跳过。假设我们已经对自然语言进行了embedding，那么首先想到的自然就是使用最基本的神经网络进行处理和分析，也就是CNN和LSTM（RNN），这算是N.

2020-09-17 13:18:28 525

原创深度学习建模训练总结（三）：细看RNN长期依赖问题与LSTM的改进

一般来说，全连接层和卷积层已经可以处理大部分的情况了，而RNN的出现，主要是针对两个问题，第一，处理变长的输入，第二，分析序列的顺序信息。虽然目前我们可以通过空间金字塔池化搭配卷积网络实现不定长度序列的处理分析，可是池化操作会丢失输入的顺序信息，所以RNN还是有他的作用的，而且他的结构是如此的简单和巧妙，所以这次我就想先回顾一下RNN，然后详细探讨一下它的长期依赖问题，最后再分析LSTM到底为什么能改善这个问题。我们可以先回顾一下如何基于RNN的思想一步步推导出公式。RNN的主要思想在于当前时刻的状态和.

2020-09-10 23:22:49 3696 1

原创深度学习建模训练总结（二）：回顾全连接层和卷积层

最近秋招要准备面试，所以我就想着回顾一下之前学过的内容，同时也想结合这些内容，谈谈如何构建模型和训练优化模型。之前简单介绍了一下如何训练模型，最后提到如果模型无法收敛，可能就要回到模型的结构进行分析，对于模型结构的分析，我认为有两点需要考虑的，第一，我们的场景、问题有什么需求，在构建模型的过程中是否需要根据这些需求设计合理的结构，第二，如何让模型降低损失、提高测试集准确率。当我们谈论神经网络的结构时，有四个最经典也是最常用的结构：全连接层、卷积层、RNN和LSTM，这次我就想谈谈我对全连接层和卷积层的.

2020-09-10 18:51:04 954

原创深度学习建模训练总结（一）：如何开始训练

以前都是侧重于看算法看模型，没有真正从零开始写一个模型然后训练它，最近开始自己写模型训练，发现很多东西都值得探讨一下，比如到底不同的模型有什么本质上的区别、神经元数量和神经层数量的不同有什么影响、如何选择激活函数、写好一个模型后怎么训练、训练有没有一个系统的流程等等，所以我就打算尽可能都了解一下，记录一下收获的东西。作为这个系列第一篇文章，我想讨论一下，当你写好一个模型之后，应该如何开始训练。首先第一点，我认为应该使用小数据集训练，看模型能否过拟合。我自己遇过很多次，写好模型之后马上训练，然后发现模型无

2020-08-13 19:55:15 2219

原创论文阅读：An Efficient Approach based on Multi-sources Information to Predict CircRNA-disease Association

最近开始做生物方面的研究，主要打算构建一个circRNA-miRNA-disease网络。目前来说，其实circRNA与深度学习结合的研究非常少，在pubmed上搜索到的文章就那几篇，当然原因有很多，个人认为主要还是生物领域的一些特殊性，导致不能像分析其他问题那样直接构建一个深度学习模型就能取得很好的效果，但也正因为如此，挑战起来才更有意思。接下来我打算做一系列的论文阅读笔记，当然我感觉我搜索到的文章还是不完整，但就先慢慢做吧。再说一句题外话，有些文章在我看来就是灌水，当然我也不会说明具体是哪些，但既然.

2020-07-16 20:45:22 764

原创随机过程（下）：Markov Jump与Kolmogorov equation

之前我们介绍了离散时间离散状态的马尔可夫链，这次就主要来谈一下连续时间的马尔可夫链，也就是所谓的Markov Jump。连续时间和离散时间，带来最大的区别就在于转移概率，这就有点像速度这个概率，你可以用一秒一米表示速度，可是如果时间是一瞬间，应该怎么表示速度呢，答案是微分，对于转移概率也是一样。通过对转移概率进行微分，就引出了transition rate：μij=limh→0pij(h)h\mu _{ij} = lim_{h \to 0} \frac{p_{ij}(h)}{h}μij=limh→.

2020-06-18 21:35:42 3042

原创随机过程（上）：马尔可夫链

随机过程是数学专业非常经典的一门课，在很多领域都有应用，之前谈论过的时间序列分析也和这门课息息相关，没想到这学期又遇上了，趁着期末复习简单总结一下，只是整理一下概念，所以就不深入进行推导了。因为教材是英文的，所以部分术语会用英文，免得翻译不准确，当然一些大家都知道的术语还是用中文，毕竟打字比较方便。虽然学数学就应该用数学的语言去理解和表达，但是这样写文章一方面打字确实很费时间，另一方面我也只是想整理一下概念和概念之间的联系，所以很多地方都说得比较通俗，最终我们还是应该以标准的文献资料为准。还有一点想说.

2020-06-18 21:30:20 5538

原创工业界的深度学习（四）：tensorflow架构及针对Atlas500的算子修改

上次谈tensorflow算子修改已经是几个月之前的事了，这几个月华为开源了mindspore深度学习框架，全面更新了mindstudio，不得不称赞华为确实一直在踏踏实实地做事。新的mindspore深度学习框架，从介绍上来看，它的开发体验更简单，支持云、边缘、手机的快速部署，或许就意味着如果用mindspore写模型，就能直接部署在atlas500上，不用像tensorflow那样一直改算子了，有兴趣的可以深入了解一下。当然，本文的重点还是tensorflow。之前修改算子的时候，说实话因为老板一直

2020-05-15 22:11:59 1230

空空如也

空空如也