算法导论
1.
Data analysis
涉及统计学的一些基本概念:
2.生成学习、判别学习、贝叶斯推断、点估计的方法、近似(拉普拉斯近似、<局部>变分近似、因子分解)
3.时域:单变量时间序列、平稳自回归模型的估计、自回归模型的层次、AR MA ARMA 模型
4.空域:地理统计学(variogram,kriging)、空域自回归模型(lattice process)、时空域模型(variogram,kriging,autoregreesive)
数字图像处理
1.数字图像基础
2.图像增强
3.图像压缩与复原
4.数学形态学图像处理
5.数字图像分割
6.数字图像配准
Image registration methods: a survey
数字信号处理
考试主要内容:
1.判断线性时不变系统&得到h(n)的两种操作(乘积、卷积:时域、频域卷积定理;验证;时域补0、频域插值;实验)
2.FFT变换看信号/系统,频谱(幅度谱、相位谱)分析:判断干扰、谐波(频谱分析原理:一个信号的全部信息包含在它的频谱的模和相位中)
补:频谱泄露
3.滤波器的设计
上课内容:
准备:各种频率(角频率、归一化频率、采样频率、频率分辨率);截止频率(-3dB,半功率点);采样率、位深度、通道数;量化误差(QE)、SD(标准均方差)、SE(标准误差);采样频率与采样点数
如果做了16个点的FFT分析,你原来的模拟信号的最高频率f=32kHz,采样频率是64kHz,n的范围是0,1,2...15。这时,64kHz的模拟频率被分成了16分,每一份是4kHz,这个叫频率分辨率。那么在横坐标中,n=1时对应的f是4kHz, n=2对应的是8kHz, n=15时对应的是60kHz,你的频谱是关于n=8对称的。你只需要关心n=0到7以内的频谱就足够了,因为,原来信号的最高模拟频率是32kHz。
你64kHz做了16个点FFT之后,因为频率分辨率是4kHz,如果原来的信号在5kHz或者63kHz有分量,你在频谱上是看不见的,这就表示你越想频谱画得逼真,就必须取越多的点数来做FFT,n就越大,你在时域上就必须取更长的信号样本来做分析。但是无论如何,由于离散采样的原理,你不可能完全准确地画出原来连续时间信号的真实频谱,只能无限接近(就是n无限大的时候),这个就叫做频率泄露。在采样频率fs不变得情况下,频率泄漏可以通过取更多的点来改善,也可以通过做FFT前加窗来改善,这就是另外一个话题了。
抽取和内插的实质是采样率fs的变化 抽取之后的频率展宽了n倍,内插之后的频率压缩了n倍,从而需要在变采样率之后添加抗混叠滤波器。
1.ADC&DAC
AD转换器的参数介绍(分辨率、参考电压、步进量LSB)
2.进制的表示、原码反码(1s补码)补码(2s)
3.线性系统与卷积
扩展:
线路中非线性元件的使用会产生谐波:
(1)电压是正弦波形,作用在非线性元件上,由于元件非线性,电流就不会随电压同步变化,产生的电流不可能是正弦波形,不是正弦波的都归为谐波,所以线路中非线性元件的使用会产生谐波。
(2)在理想的电力系统中电流和电压都是纯粹的正弦波。当电流流过与所加电压不呈线性关系的负荷时就形成非正弦电流。非线性元件与所加电压不呈线性关系,导致谐波的出现。
(3)对欧姆定律不适用的导体和器件即电流和电压不成正比的电学元件叫做非线性元件。非线性元件是一种通过它的电流与加在它两端电压不成正比的电工材料,即它的阻值随外界情况的变化而改变。
(4)谐波是一个数学或物理学概念,是指周期函数或周期性的波形中能用常数、与原函数的最小正周期相同的正弦函数和余弦函数的线性组合表达的部分。从严格的意义来讲,谐波是指电流中所含有的频率为基波的整数倍的电量,一般是指对周期性的非正弦电量进行傅里叶级数分解,其余大于基波频率的电流产生的电量。
(5)从广义上讲,由于交流电网有效分量为工频单一频率,因此任何与工频频率不同的成分都可以称之为谐波,这时“谐波”这个词的意义已经变得与原意有些不符。正是因为广义的谐波概念,才有了“分数谐波”、“间谐波”、“次谐波”等等说法。谐波产生的原因主要有:由于正弦电压加压于非线性负载,基波电流发生畸变产生谐波。主要非线性负载有UPS、开关电源、整流器、变频器、逆变器等。
4.离散傅里叶变换、FFT
深入浅出的讲解傅里叶变换(真正的通俗易懂)关于这篇科普文章的疑问
5.滤波器
数字滤波器与模拟滤波器(有源、无源。ex:抗混叠滤波器)、FIR与IIR的区别(单位脉冲响应是一个有限长序列,这种系统称为“有限长单位脉冲响应系统”,简写为FIR系统。相应地,当单位脉冲响应长度无限时,则称为“无限长单位脉冲响应系统”, 简写为IIR系统。)
评价滤波器的几个指标(时域、频域):通带看纹波,阻带看衰减,过渡带看roll-off
获得滤波器h(n)的几个步骤(IDFF、Cut、Window、Shift)
补充:
时域跳变——加窗
自相关函数、功率谱与白噪声:白色噪声就是指在整个频谱上幅值是平坦的随机信号,经过选频滤波器(低通、高通、带通、带阻)后均变成了有色噪声,即频域能量主要集中在一定频段,不会是白色噪声:Matlab 产生白噪声和有色噪声序列
自适应局部噪声,一种改进的自适应局部噪声消除滤波算法-自适应滤波器
应用:独立分量ICA分析(鸡尾酒会问题)
生物医学信息
1.数据统计
分位数、极差、偏度、峰度
从频次统计到概率统计
(1)常见概率分布
离散型概率分布:伯努利、二项、几何、超几何、泊松、指数
连续型概率分布:正态分布、对数正态分布、卡方分布(正态分布的平方和)
(2)显著性与假设检验
准备:置信区间与置信水平
平均数差异显著性检验理论(假设两个总体的方差总是相同):z检验、t检验
两个总体的方差是否有显著性差异:F检验(平均数差异显著性检验理论的前提)
样本方差与与总体方差是否有显著性差异:卡方检验
无分布函数的情况下测试两个分布的等同性:Kolmogorov-Sirmnov Test
相关性检验 Pearson correlation(需要对相关系数做显著性检验)
(3)假发现与控制
(a)研究变量越多,假发现的数量越大
(b)p值越小的变量,假发现的概率越小
(4)多元回归模型
辛普森悖论(单变量分析的局限)
多变量分析:线性回归、最小二乘回归、岭回归、LASSO、逻辑斯谛回归
(5)生存分析模型
被观察对象会在何时发生某个事件的问题。传统的线性分析并不能够很好的解决生存分析问题。
非参数模型、参数模型
生存分析:
几种常见的统计偏倚:罗杰斯偏倚、伯克森偏倚、纽曼(Neyman)偏倚、检出信号偏倚、无应答偏倚
2.生物医学信息的机器学习技术
监督学习(分类、回归)、无监督学习(聚类、异常检测)
准备:相似性度量
(1)聚类
层次聚类 (Hierarchical Clustering)、K均值聚类、基于分布/密度的聚类、谱聚类、双聚类
聚类评估法:内部评估法、外部评估法
(2)高维特征选择
准备:卡方检验(比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析)
用于特征选择:以“特征与类别不相关”作为原假设,对每个特征计算卡方值,值越大,说明原假设的偏离越大,我们倾向于认为原假设的反面情况是正确的。
过滤式(统计方法、距离度量、信息论)、包裹式(穷举搜索、启发式搜索、遗传算法)、嵌入式(L1正则化、决策树)
补:共空间模式
(3)降维技术(PCA、LDA、NMF)与流形学习(在模型里包含了对数据的流形假设、LLE&ISOMAP)
(4)分类(K近邻、朴素贝叶斯、Logistic回归、决策树<特征选择、决策树的生成和决策树的修剪>、支持向量机)
补充:k-NN与k-means的区别、全概率公式(贝叶斯决策理论的核心思想是选择具有最高概率的决策。)、梯度上升和梯度下降、随机森林算法、支持向量机(SVM)从入门到放弃再到掌握
(5)神经网络与深度学习
神经网络类型(前馈网络与BP算法、Hopfield Network、Self-Organization Map (SOM)、Recurrent Neural Netwok)
深度网络(针对神经网络存在的若干问题:训练耗时、局部最优解、隐含层节点数调节——深度信念网络(Deep Belief Network)、稀疏自编码深度网络、深度卷积网络、Multi-task Learning、Transfer Learning)
(6)生物医学医用案例
Clustering Analysis、Hierarchical Clustering、PCA、PCA+LDA、K-mean Clustering、流形学习Manifold Learning (LLE)、等度量映射ISOMAP、No-Free-Lunch Theorem(理解)
3.基因组数据处理与分析
序列比对分析、序列拼接、进化树分析、Motif发现、可变剪切发现、基因测序结果的量化、数据预处理(右偏态取对数变为正态分布,左偏态取相反数转换为右偏态)、富集分析、作用关系网络分析
4.医学数据处理与分析
生物医学文本挖掘、心电信号处理与辨识、脑电信号分析、医学图像处理与分析、质谱与代谢组数据分析
5.移动医疗、数字健康与大数据
移动医疗的机遇、移动医疗关键技术、移动医疗重要应用、数字健康、医疗健康大数据、数字健康的人工智能技术
6.精准医学与精准健康
药物基因组学、免疫疗法、微生物宏基因组学(微生物与人体健康 宏基因组学:微生物研究的新途径 宏基因组学关键技术 未来趋势)、循证医学与大数据研究、精准医学、精准健康
机器学习
非常好的博客:Deep Learning(深度学习)学习笔记整理系列