1.Hadoop——HDFS
hadoop分布式文件系统
名称节点、数据节点
HDFS的分块处理
数据块——128
优点:1可以保存在多个存储设备上 ,从而支持超大规模的存储2利于数据复制,快速备份,利于数据的分布式计算
HDFS数据读写流程:数据分块;获取数据块副本存放位置;写入数据块
2.噪音数据
噪音是指:被测量数据的随机误差或者方差,包括错误数据或者偏离期望的数据
处理噪音数据的方法:分箱,回归、聚类、业务逻辑检查
分箱:深度:表示个数,宽度表示:取值范围,
3.图像分布纹理参数量化指标
1.灰度共生矩阵的概念:
一种基于统计的提取纹理特征的方法,建立在估计图像的二阶组合条件概率密度基础上
灰度共生矩阵的特征:
能量:角二阶矩:反应图像在K成K矩阵中灰度分布均匀程度和纹理粗细程度
灰度均值:反应像素所有灰度值的集中趋势
逆差矩:反应图像纹理同质性
熵:图像纹理复杂程度、纹理灰度分布随机性
相关性:图像线性度的测量
聚类趋势:测量相似灰度水平值像素的分组
同质度:图像水平相似度
对比度:反应图像清晰度
2.图像颜色特征
RGB颜色特征:红绿蓝
HVS:色调(0到360度)、饱和度(0-1)、亮度(0-1)
3.图像形状结果特征
轮廓特征和区域特征
区域致密度:反应图像区域离散复杂程度
空间矩:图像的形状和灰度分布
中心矩:图像重心的灰度分布情况
方向角:图像形状拉长的方向
偏心度:图像宽窄程度
4.文本挖掘基本概念和原理
中文文本和英文文本;中文分词、英文分词
分词方法:有词典分词和无词典分词
1.有词典分词
正向最大匹配分词和反向最大匹配分词
反向最大匹配分词的精确率>正向最大匹配分词
2.无词典分词
基于相邻字之间的共同出现频率:
隐马尔可夫模型
最大熵模型
N-gram模型
5.医学文本挖掘技术
文本挖掘步骤包括;
文本获取——文本预处理——文本表示——文本特征选择——分类器分类或者文本聚类
①文本获取:
②文本预处理:文档分词、去除停用词、建立语料库
③文本表示:VSM、提取特质值序列、特征权值计算、词频率及逆文档频率
④特征选择:
从专业词典抽取具有基本语义的词语作为术语
通过文档频率
借助模型评估
使用统计学方法衡量
⑤文本分类方法
KNN(K近邻)
支持向量机
决策树
随机森林
卷积神经网络
6.语音编码格式
PCM编码:脉冲编码调制——约定俗称的无损编码。音质好,但存储空大。WAV,FLAC
MP3,AAC(高级音频编码):有损编码
7.语音识别技术基本流程
语音信号-信号处理-特征提取-声学模型-语言模型
语音特征提取:1.MFCC(梅尔频率倒谱系数)特征和FBank特征最广泛的两种特征
预处理:预加重-分帧-加窗-
快速傅里叶变化
梅尔滤波器组:人类对不同频率的语音有不同的感知能力
英语使用音速建模、汉语使用声韵母建模
8.生物信息大数据的特征
容量多、种类多、处理速度快,密度低应用价值高,时间性。长期保持性,不完整性
9.基因共表达网络拓扑分析
由于度量拓扑结构中基因的个数不相同、将拓扑分析方法分为全局网络拓扑分析,网络中心性分析。
1全局网络拓扑分析:全局网络拓扑结构的度量指标有:
平均度
度分布
聚集系数
平均路长
直径等等
蛋白质网络互作性质(三种拓扑结构特性):
三种拓扑特性:无标度分布、小世界特性、功能模块网络
2网络中心性分析
度中心性
接近中心性
中介中心性
特征向量中心性
瓶颈型hub基因:对应高中心性蛋白连接几个复合体或者中心复合体的周边成员(倾向于约会型hub基因)
非瓶颈型hub基因:主要构成结构蛋白(倾向于党派)
10.hub基因挖掘流程
① 原始数据的获取与预处理
数据来源:GEO TCGA OpentargetOncomine
GEO 2R中获取
②差异表达分析
③富集分析
基因本体GO
④蛋白质相互作用网络分析
STRING :搜索已知功能的蛋白质和预测功能的的蛋白质之间的关系
Metascape:基因功能注释分析工具
⑤挖掘整合与基因赛选
Cytoscape
⑥生存分析
11.基因共表达网络的模块分析
①加权基因共表达网络分析
通过计算基因间的表达关系,鉴定表达模式相似的基因模块,解析基因集合与样品表型之间的联系
②基于密度的模块识别方法
基于图论或者网络密度的网络模块发现算法
三个步骤;网络节点加权、模块预测、模块优化处理
③马尔可夫聚类算法
基于模拟网络随机流的无监督聚类方法
④基于划分 模块识别
一种无参数的基于划分 的模块识别算法
12.医学图像分类及特点
①X线图像
难以检测较小病灶,分辨率低
②CT图像
CT利用高能量,高透性的X线从多个方向沿着身体的某一选定的断层层面进行照射
扩大了人体检查范围,提高 了病变检出率和诊断准确率
③超声图像
廉价、实时、无顺损、无辐射、和敏感度高,常用于产科
④MRI图像
提供清晰的人体软组织的结构
⑤核医学成像图像
PET 提供人体组织器官新陈代谢变化
13.大数据安全与隐私保护技术
①大数据发布的安全隐私保护技术
1.K-匿名技术
2.I-diversity匿名策略
3.t-closeness 匿名策略
4.数据重发布匿名策略
②大数据存储隐私保护技术
1.大数据存储加密技术
2.大数据审核技术
③大数据挖掘隐私保护技术
1.关联规则的隐私保护技术
2.分类结果的隐私保护技术
3.聚类结果的隐私保护技术
④大数据使用隐私保护技术
1.基于角色的访问控制技术
2.基于属性的访问控制技术
14.医学图像感兴趣区域分割算法
1.边界分割算法
2.阈值分割算法
Otsu算法结合阈值分割和聚类思想。假设一幅图像只包含两个像素,前景像素和背景像素,通过计算得到一个阈值,该阈值满足使得两类像素差异最大,即类间方差最大。
3.区域生长分割算法
4.基于统计学分割算法
5.基于深度学习分割算法
15.互联网健康医疗大数据可用于
1.以发展’精准医学‘为目的的生物医学大数据
2.以发展’智慧医疗‘为目的的医疗医药医保大数据
3.以发展’全面健康‘为目的的人口健康大数据
4.以发展’中医药现代化、国际化‘为目的的中医药科技大数据
16.健康医疗大数据概念以及特点
概念:健康医疗大数据是涉及人们生老病死、衣食住行、生产全过程中所产生、发生及交互生产的有关生理、心理、生产、生活、道德、环境及社会适应、疾病防治公共卫生、健康管理等方面的数据、再生/衍生数据以及数据元。
特点:4V;容量大、种类多、处理速度快、密度低但是应用价值高。时间性、长期保存性、不完整性。
17.医学图像概念
医学图像是指用于医疗或者医学研究,反映人体解剖与生理功能状态以及病理变化等信息的图像。
种类:
X图像:难以检测较小病灶
CT:高穿透性、高能量的X线从多个方向沿着身体某一断层层面进行照射,扩大了人体检查范围、提高病变检出率和诊断准确率。
超声图像:廉价,实时,无损伤,无辐射,和敏感度高的等优势,适用于产科
MRI;电磁波:提供清晰的人体软组织解剖结构
核医学:PET:提供人体组织器官新陈代谢变化的信息。
18.灰度共生矩阵概念——纹理特征
一种基于统计的提取纹理特征的方法,建立在估计图像的二阶组合条件概率密度基础上
纹理特征:
①能量
②灰度均值
19.文本挖掘——常见分词方法
文本挖掘:
是以计算机语言学、统计数理分析为基础结合机器学习和信息检索技术,在大规模文本集合中提取隐含的未知的潜在有用信息的过程
至少3种
常见分词方法:
①正向最大匹配法:
当对一个句子进行分词的时候,从句子中指定的某个字开始往后寻找出最长匹配词,找到后再接着找下一个最长匹配词以此循环直到找到最后一个词,才算完成对整个句子的分词。
②反向最大匹配法:
就是往前找
③基于词网格的N-gram统计分词技术
词网格指描述一个需要被分词的语句和其所形成的候选词共同形成的路径的方法
20.Hub基因知识设计挖掘流程
某肿瘤研究课题组,使用了药物 XXX 化疗治疗模式动物小鼠的乳腺痛,取得显著疗效。现有治疗前后的乳腺癌的基因芯片数据,想要确定该药物通过改变哪些关键基因的表达,从而影响相应的代谢通路和生物过程。请根据生物信息大数据部分学习的 Hub 基因的知识设计挖掘流程,并写出每一步需要使用哪些工具/数据库去完成,预期获得结果
-
原始数据获取或预处理
- 工具/数据库: 使用GEO数据库下载原始芯片数据,并使用R语言中的limma、affy等工具进行预处理和归一化。
-
差异表达分析
- 工具: R语言中的limma、DESeq2等工具
- 目的: 识别治疗前后存在显著差异表达的基因。
-
功能富集分析
- 工具: DAVID、clusterProfiler等
- 数据库: GO和KEGG通路数据库
- 目的: 分析差异基因所参与的生物学过程和信号通路。
-
蛋白质相互作用网络分析
- 工具: Cytoscape、STRING等
- 数据库: 蛋白质互作数据库
- 目的: 构建差异基因对应蛋白质的相互作用网络,识别关键节点基因(Hub基因)。
-
结果整合和Hub基因筛选
- 工具: 自定义R脚本
- 目的: 整合差异分析、功能富集和网络分析的结果,识别出最具代表性的Hub基因。
-
生存分析和实验验证
- 工具: Kaplan-Meier分析、qPCR、Western blot等
- 数据库: 肿瘤预后数据库,如TCGA
- 目的: 验证筛选出的Hub基因在肿瘤预后和生存中的作用,并进行实验验证。
预期结果:
- 差异基因列表:识别出在治疗前后存在显著差异表达的基因。
- 功能富集结果:了解差异基因所参与的生物学过程和通路。
- 关键节点基因(Hub基因):从差异基因及其网络中挖掘出关键调控基因。
- 生存分析和实验验证:验证Hub基因在肿瘤预后和生物学功能中的重要性。
通过上述流程,我们可以较全面地挖掘该药物通过哪些关键基因的表达调控,从而影响相应的代谢通路和生物过程。
21.特征纹理选择
-
感兴趣区域分割(Region of Interest, ROI)
- 算法: 基于阈值的分割算法,如Otsu分割法
- 目的: 从整体肺部 CT 图像中分割出肺部组织区域
- 输入: 原始肺部 CT 图像
- 输出: 分割后的肺部 ROI 掩膜图像
-
纹理特征提取
- 算法: 灰度共生矩阵(Gray-Level Co-occurrence Matrix, GLCM)
- 目的: 从 ROI 图像中提取纹理特征值,如对比度、相关性、熵、同质性等
- 输入: 分割后的肺部 ROI 掩膜图像
- 输出: 一组描述ROI纹理特征的数值向量
-
特征选择
- 算法: 主成分分析(Principal Component Analysis, PCA)
- 目的: 从大量纹理特征中提取最具判别性的特征
- 输入: 纹理特征向量
- 输出: 经过降维的主成分特征向量
-
模型构建
- 算法: 机器学习分类模型,如支持向量机(SVM)、决策树(Decision Tree)等
- 目的: 基于提取的纹理特征建立肺癌诊断模型
- 输入: 主成分特征向量及对应的标签(肺癌/非肺癌)
- 输出: 训练好的肺癌诊断模型
生物信息大数据:是指在大数据背景下通过生物医学技术获取的有关细胞或生物体的核酸、蛋白质、和代谢产物、等数据的集合、既包括实验或者测序所得的一次数据,也包括分析所得的二次数据。
生物信息大数据的特征:
1.量大
2.多样性
3.价值性
4.高速性
5.真实性
生物信息大数据的类型
分类类型:
1.对象类型:核酸大数据、蛋白质大数据、生物信息通路大数据、肿瘤大数据、模式生物大数据
2.公开程度:NCBI美国,
3.加工程度:1次生物信息大数据,2次生物信息大数据
DDBJ日本