数据科学与机器学习
文章平均质量分 89
数据科学中的数据分析与数据挖掘入门与介绍、机器学习常见算法和问题的学习与积累。
sgyzetrov
【公众号:拖延果的日常】以前做过图像处理,而且做过不短的时间。做过C++、Java开发,深刻意识到兴趣是最好的老师...现在的方向是数据科学,认真地爱着,投入着......
展开
-
DS&ML_用Excel实现按行排序后按列排序,最后高亮重复值
记录一个刚刚用本‘笨’办法解决的数据清洗和数据整理问题前几天收到邮件,对之前我一篇论文的方法进行测试的时候有些疑问。我在复现的时候遇到了以下的问题:我现在有三个结果,res1, res2 和 res3,他们的结构基本是一致的,都是两列:N8 N84N18 N4N22 N64N10 N17...M0P1 M0P2...如果不用 Python,只用 Excel, 如何找出三个结果中的重复值?(N2-N1视为与N1-N2等同)我的笨办法(不用 VBA)首先,分别按照编号大小左右排序,再从原创 2020-10-03 04:43:26 · 765 阅读 · 0 评论 -
Vancouver Machine Learning 2019 参会记录
VanML 2019 参会记录紧接着 NeurIPS 2019 会议后面,就是 Vancouver Machine Learning: Genomics 会议。其实本次算是我第一次参加学术会议,本科的时候也有一次机会,当时 Nature 的子会议 Agricultural Genomics 2017 在我农的作物遗传改良国家重点实验室开,我是可以去听的(如果我想的话),但最后还是没有成行。...原创 2019-12-21 14:49:42 · 1384 阅读 · 0 评论 -
数学建模_巧用Excel的分列处理文本数据,提取有用信息
使用 Office Excel 分列功能两步将程序生成的复杂文本数据处理成工整的信息脏数据示例(由 AntEpiSeeker 生成,此处已脱敏):Epistatic interactions:Loci Chi-square P value93(rs10****1) 6111(rs2****5) 32.2****4 8.4****3e-0056****5(rs1****7) 237(rs...原创 2019-05-11 12:42:56 · 2424 阅读 · 0 评论 -
在集群环境中安装R(步骤清晰内容详实,堪称无脑教程!)
在集群环境下如何解决需要使用R语言的需求?关键词: PBS作业调度系统; HPC; R;本文最初思路构思于2018/05,成文于2018/10/17本文背景是博主的最新一篇论文(上位基因检测机器学习算法创新)临近实验尾声,已经完成在模拟数据中的检测,现在需要在真实数据上进行测试,奈何真实基因数据过于庞大,本地、单机的解决方案捉襟见肘,所以需要调用学院的集群来进行数据处理和运算。本文设定...原创 2018-10-17 20:36:33 · 4635 阅读 · 4 评论 -
数学建模_以fisheriris数据为例使用新版本神经网络工具箱feedforwardnet进行简单实现
新版本神经网络工具箱fitforwardnet及其简单实现问题:著名的Iris数据集曾被现代生物统计学之父Ronald A. Fisher用做线性判别分析的试验数据而为世人所熟知. 该数据集中有三种不同类型的鸢尾花setosa/versicolor/virginica,每种有50个样本,每个样本有4个特征 (分别是花瓣长/花瓣宽/花萼长/花萼宽).现要求将Iris数据集随机分为2组,每组各75个原创 2017-07-17 01:47:02 · 4117 阅读 · 3 评论 -
DS&ML_分类算法笔记之逻辑回归模型
对于逻辑回归模型的相关知识点的总结与整理简单描述一下逻辑回归的思想,逻辑回归是什么?逻辑回归虽然叫回归,但是其实是一种分类机器学习算法,原理是将数据拟合到一个预测logistic函数中,预测logistic函数的值表示取1的概率,而取0的概率就是(1-预测函数值),这样就完成对某些事件发生的概率的预测。简单地说,逻辑回归就是一个梯度下降。(Copyright © http://blog...原创 2018-03-27 13:55:14 · 1539 阅读 · 0 评论 -
DS&ML_分类算法笔记之决策树模型
对于决策树模型的相关知识点的总结与整理简单描述一下决策树模型的思想,决策树是什么?原创 2018-04-01 11:11:06 · 2977 阅读 · 0 评论 -
DS&ML_聚类算法笔记之k-means模型
对于k-means聚类模型的相关知识点的总结与整理简单描述一下k-means的思想,k-means是什么?原创 2018-04-01 11:21:04 · 2084 阅读 · 0 评论 -
DS&ML_分类算法笔记之朴素贝叶斯模型
对于朴素贝叶斯模型的相关知识点的总结与整理简单描述一下朴素贝叶斯的思想,朴素贝叶斯是什么?朴素贝叶斯是一种分类算法,是贝叶斯分类算法的一种,贝叶斯分类算法都是以贝叶斯定理为基础的分类算法。与一般贝叶斯分类器的区别原创 2018-04-01 16:01:18 · 1914 阅读 · 0 评论 -
DS&ML_降维算法笔记之主成分分析PCA模型
对于主成分分析的相关知识点的总结与整理简单描述一下PCA的思想,PCA是什么?PCA是利用降维的思想,在损失较少信息的前提下,用几个综合指标来代替之前多个指标的一种多元统计方法,把这些综合指标称为主成分。核心就是把协方差矩阵特征值从大到小排列选出最大的K个组成特征向量矩阵。原创 2018-04-01 16:04:37 · 2010 阅读 · 0 评论 -
DS&ML_分类算法笔记之k-近邻、KD-Tree模型
对于k-近邻、KD-Tree模型的相关知识点的总结与整理简单描述一下k-近邻的思想,KNN是什么?原创 2018-04-02 09:06:50 · 1607 阅读 · 0 评论 -
DS&ML_分类算法笔记之随机森林、梯度提升树、XGBoost模型
对于以决策树为基础的模型的相关知识点的总结与整理XGBoost、随机森林RF、梯度提升树GBDT&GBRT简单描述一下这三类模型的思想,它们都是什么?对于以...原创 2018-04-02 09:10:17 · 4132 阅读 · 0 评论 -
DS&ML_分类算法笔记之支持自动机SVM模型
对于支持自动机SVM模型的相关知识点的总结与整理简单描述一下支持自动机的思想,SVM是什么?原创 2018-04-02 09:11:48 · 920 阅读 · 0 评论 -
DS&ML_关联分析笔记
对于关联分析模型的相关知识点的总结与整理简单描述一下关联分析的思想,关联分析是什么?原创 2018-04-02 11:51:32 · 2002 阅读 · 0 评论 -
DS&ML_判别式模型和产生式模型 (discriminative model and generative model) 区别与代表模型
“判别式模型和产生式模型”的问题,参考了网上一些帖子,做了个表,对两个模型进行了简单的比较。转载 2018-04-03 16:03:31 · 513 阅读 · 0 评论 -
DS&ML_分类算法笔记之模型常见模型优缺点比较
常见模型优缺点比较,包括对缺失值极端值敏感性的对比记录原创 2018-04-04 17:25:27 · 3721 阅读 · 0 评论 -
DS&ML_特征工程笔记
特征工程从零到整学习笔记部分转自http://www.cnblogs.com/jasonfreak/p/5448385.html, 加入了我自己的理解和总结,全文偏理论,若追求代码请转去该文章。特征工程定义特征工程,是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。以期减少算法模型受到的(如噪声的)干扰。有一句话叫做数据和特征决定了机器学习的上限,而模型和...原创 2018-04-04 21:30:41 · 725 阅读 · 0 评论 -
Python_蒙提霍尔问题的模拟
蒙提霍尔问题的解决:使用Python模拟蒙提霍尔问题蒙提霍尔问题(又称三门问题、山羊汽车问题),参赛者面前有三扇关闭着的门,其中一扇的后面是一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,主持人会开启剩下两扇门中的一扇,露出其中一只山羊。主持人其后会问参赛者要不要更换选择,选另一扇仍然关着的门。更换选择还是...原创 2018-06-02 17:31:27 · 2304 阅读 · 0 评论