自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 tcga数据批处理命令行工具

使用rust编写的,tcga数据批处理命令行工具。主要特点是方便,速度快。目前只实现了临床xml格式合并的功能,后面根据需求不断完善。我已经将构建好的工具,放到了bin目录。只需clone该库,即可使用。如果有错误,自行构建一下即可。mac平台的需自行构建。+ 解析所有xml文件,并合并到一个文件中。### 合并xml合适的临床文件。

2024-04-06 17:45:47 145

原创 线性回归算法

线性回归算法我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!! ​ 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。​ 我们看下面一组数据,这组数据通过工资和年龄两个特征来预测银行贷款的额度。那么,工资和年龄对银行贷款给我们的额度的影响会有多大呢?这也就是我们所需要求的参数。工资年龄额...

2020-02-21 21:57:14 241

原创 支持向量机-算法概述

​ 我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!!​ 有些人认为,支持向量机(SVM)是最好的现成的分类器,这里说的“现成”指的是分类器不加修改即可直接使用。同时,这就意味着在数据上应用基本形式的SVM分类器就可以得到低错误率的结果。SVM能够对训练集之外的数据点做出很好的分类决策。​距离的定义:基于最大间隔分隔数据​ 假设在一个平面上有如下两组数据,我们...

2020-02-20 00:18:31 505

原创 机器学习实战 Logistic回归

Logistic回归​        我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!!        假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用L...

2020-02-18 00:29:27 261

原创 机器学习实战 朴素贝叶斯分类器

基于概率论的分类方法: 朴素贝叶斯        我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!!        k-近邻算法和决策树会给出“该数据属于哪一类”的明确回答。不过,分类器有时会产生错误结果,这是可...

2020-02-16 17:39:58 669

原创 机器学习实战 决策树的构造

决策树的构造我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!!​        有一个二十个问题的小游戏,游戏规则很简单:参与游戏的一方在脑海了想某个事物,其他参与者向他提出问题,只允许提问20个问题,问题的答案也只能用对和错来回答。问问题的人通过推断分解,逐步缩小猜测事物的范围。决策树的工...

2020-02-15 18:58:09 343

原创 机器学习实战 K-近邻算法

K-近邻算法概述​ 简单地说,**k-近邻算法采用测量不同特征值之间的距离的方法进行分类。他的优点是精度高、对异常值不敏感、无数据输入设定。缺点是计算复杂度高、空间复杂度高。**使用数据范围为:数值型和标称型。​ k-近邻算法(kNN)的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集合中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据...

2020-02-15 00:45:46 231

原创 ggplot2-局部整体型图表

ggplot2-局部整体型图表沈益8/18/2019饼图library(RColorBrewer) library(dplyr)library(graphics)#-------------------------图7-1-1 饼图(a)------------------------------------------df <- data.frame(va...

2019-08-18 15:40:26 1302

原创 ggplot2-数据分布型图表

ggplot2-数据分布型图表沈益8/15/20195.0 图表总览a)散点抖动图p <- ggplot(mydata, aes(Class, Value))+ geom_jitter(fill =color[4],position = position_jitter(0.2),shape=21, size = 3)+ scale_y_continuous(br...

2019-08-18 15:37:54 4478 2

原创 ggplot2-高维可视化图表

ggplot2-高维可视化图表沈益8/18/2019PCAset.seed(1)num_rows_sample <- 5000train <- read.csv("配套资源/第8章 高维数据型图表/Tsne_Data.csv")train_sample <- train[sample(1:nrow(train), size = num_ro...

2019-08-18 15:28:08 1302

原创 ggplot2-数据关系型图表

数据关系型图表沈益7/29/20194.1 带趋势线的散点图mydata<-read.csv("配套资源/第4章 数据关系型图表/Scatter_Data.csv",stringsAsFactors=FALSE) ggplot(data = mydata, aes(x,y)) + geom_point(fill="black",colour="black",size...

2019-08-15 23:26:34 3073 1

原创 ggplot2-图形语法

ggplot2 图形语法ggplot2 是一个功能强大且灵活的 R 包,由 Hadley Wickham 编写,它可以生成优雅而实用的图形。ggplot2中 的 gg 表示图形语法(grammar of graphic),这是一个通过使用“语法”来绘图的图形概念。ggplot2 主张模块间的协调与分工,整个 ggplot2 的语法框架,主要包括数据绘图部分与美化部分。ggplot2 图形语法的...

2019-07-22 22:14:22 2237 2

翻译 ggplot2绘图--类别比较型图表

本文所用代码来自于《R语言数据可视化之美》,我也是学习借鉴 。ggplot2绘图--类别比较型图表沈益7/18/2019library(ggplot2)library(RColorBrewer)library(reshape2)类别比较型图标–柱形图系列1. 单数据系列柱形图# 绘图数据mydata <- data.frame(Cut = c("Fair...

2019-07-21 14:18:30 2560

原创 python练习6 自动修正juzi

题目是在checkio上做的,这个网站有大量的python题界面类似wow:For the input of your function will be given one sentence. You have to return its fixed copy in a way so it’s always starts with a capital letter and ends wit

2017-12-03 16:11:00 362

原创 python练习题5 寻找序列中的motif

今天的题目是寻找序列中的motif的位置:http://rosalind.info/problems/subs/刚开始认为,通过python的re模块可以很方便解决这个问题,但在实际过程中发现,使用re模块只会传回两个位置,并不像题目中,会传回三个位置。这样的话只能自己设计一个循环,匹配motif的位置。当然,python还有一个模块,可以很方便的完成这题。#_*_ coding: utf

2017-11-19 13:52:31 2877

原创 python练习题4 将mRNA翻译成蛋白质

题目地址:http://rosalind.info/problems/prot/首先,需要先识别mRNA中的翻译起始位点,即AUG,然后从该位置,根据标准遗传密码表,将整个mRNA序列翻译成蛋白质,如果中途遇到终止密码子,则显示Stop.当然,biopython也提供了翻译蛋白质的模块,可以很方便的将mRNA或者DNA翻译成蛋白质。这是不用biopython的代码:

2017-11-18 18:43:12 8391

原创 python练习题3 孟德尔遗传定律 统计子代基因型为显性的概率

题目在这:http://rosalind.info/problems/iprb/解这一题可以有两种思路,一种是穷举法,把所有子代的基因型全部列举出来,并放入字典中,然后再计算其中显性基因的概率。#*_coding: utf-8_*import numpy as npdef character_list(parent_number): '''输入包含纯合,杂合样本

2017-11-16 21:17:25 1588

原创 python练习题2 从两个DNA序列中找到突变位点的数量

题目网址在这里:http://rosalind.info/problems/hamm/我对这道题的思路,用readlines()将两条序列的序列信息分别保存在两个变量中,然后再一一比对,比较适合这道题。但如果序列长度较长,行数较多,可能并不适用。这是我的代码,可以参考下。#_*_ coding: utf-8 _*file = open('E:\\bioinfo\stu

2017-11-13 20:37:19 2834

原创 python练习题1 计算多个DNA序列中,GC比最高的序列

这是题目连接:http://rosalind.info/problems/gc/解决思路可以有多种,下面提供我想到的两种解决思路。解决思路1.可以通过collections模块中的OrderedDict,将字典排序,。从而找到GC比最高的序列:下面是代码:#!/usr/bin/env python#_*_ coding: utf-8 _*from operator impo

2017-11-12 15:26:08 3755

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除