YangRiriri-CSDN博客

原创 Pandas dataframe 中显示包含NaN值的单元格

大部分教程只讲如何打印含有NA的列或行。这个函数可以直接定位到单元格，当dataframe的行和列都很多的时候更加直观。

2024-04-29 04:10:13 630 1

原创将excel表中的英文自动翻译成中文

某乎上垃圾内容太多，要么是复制粘贴的youdao翻译，要么是某网络函数库的软广。这里提供office的原生方法，需要用到word（不适合数据量太大的情况）

2023-10-17 10:51:53 3576

原创 Python：脚本与包在同一根目录下报错 ModuleNotFoundError: No module named ‘mymodule‘

❗❗chatgpt生成预警。

2023-10-12 21:54:10 1135

原创 pandas.DataFrame.to_excel：在同一个sheet内追加数据

参考了这篇文章的方法，基本逻辑是：通过数据框获取到该Excel表的行数 df_rows，然后将需要存储的数据，限制开始写入的行数，即：startrow=df_rows+1 （原表中第一个空行），然后写入到同一个sheet中。这个方法不会覆盖原来的数据，实现在同一个sheet中追加数据。

2023-10-08 22:55:33 6553 4

原创 word打印为pdf去掉批注和修订记录

对于这个问题某乎上充斥着垃圾回答，大多引流到自家开发的pdf产品上。其实背后的方法都是一样的，就是关掉批注，用word自带的功能就能解决，凡是word编辑软件都有类似功能。

2023-05-26 11:47:36 16378

原创 Python 文本批量替换

批量将文本中的“??”乱码替换成“e”，改好后的文本保存在新的文件中with open('oldfile', 'r') as oldfile: with open('newfile', 'w') as newfile2: for i in oldfile: if "??" in i: newfile2.write(i.replace("??", "e")) else: n

2021-01-20 01:30:38 838

数据威斯康乳腺癌数据集由699个样本和11个特征组成，第一列为Sample code number (id number)，最后一列为Class: (2是良性, 4是恶性)，是需要预测的变量。其余几个特征的大小均介于1-10之间。数据可以在UCI的网站上得到。data <- read.csv("breast-cancer-wisconsin.data")str(data)levels(data[,11]) <- c(1,2)boxplot(data[,-1])聚类用kmeans

2021-01-20 00:30:11 17265 1

原创 R：optim()函数——回归优化案例分析

目的使用optim()函数寻找最优的参数值，使残差平方和最小（最小二乘法）。步骤数据R自带数据集Indometh，有66行、3列，分别为Subject（患者编号），time（血液样本采集时间）和conc（血液样本中indomethacine的含量）。数学模型conc=a1exp(−exp(l1)time)+a2exp(−exp(l1)time)conc = a_1 exp(-exp(l_1)time)+a_2exp(-exp(l_1)time)conc=a1exp(−exp(l1)tim

2020-11-19 23:29:56 6628

原创 python：numpy矩阵操作

转置矩阵import numpy as npa = np.array([[9, 12.802, -45], [12.802, 22.348, -79.057], [-45, -79.057, 285]])print(a)print("transpose matrix is\n", a.transpose())逆矩阵a_inverse = np.linalg.inv(a)print("inverse matrix is\n", a_invers

2020-11-13 15:07:59 547

原创序列回帖与multi-mapped reads的处理

数据回帖根据维基百科的定义：在计算和数据管理中，数据映射（data mapping）是在两个不同的数据模型之间建立数据元素映射的过程。一个经典的pattern mapping问题：查找pattern（P）中字符串（T）的重复次数。通常的解决方法是使用后缀树，在之前的文章中写过方法：后缀树练习实例：从目标串S中查找串T重复次数在生物信息中，根据有无已知的基因组信息可以将mapping分成两类。...

2020-05-06 19:59:17 6700

原创后缀树练习实例：从目标串S中查找串T重复次数

题目：在一篇文章中，找到单词“word”出现的次数方案：用S+’$'构造后缀树，搜索T节点下的叶节点数目即为重复次数原理：如果T在S中重复了两次，则S应有两个后缀以T为前缀，重复次数就自然统计出来了。（来自SunnyYoona的文章：[算法系列之二十四]后缀树（Suffix Tree））假设有这个文本有10000个字符（包括标点符号和空格），用这10000个字符和$符号可以创建10001...

2020-04-25 03:01:09 856

原创生信笔记：E值究竟是什么？！！！

先来看E值的计算公式：E=kmne−λSE=kmne^{- \lambda S}E=kmne−λSk,λk, \lambdak,λ 是两个修正参数，与数据库和算法有关，用来平衡不同打分矩阵和搜索空间对搜索结果的影响（The parameters K and λ represent natural scales for the search space and the scoring sys...

2020-04-14 16:04:03 6656

原创生信笔记：系统进化树的分类

这是一篇阅读笔记，原文刊载于Digital Atlas of Ancient Life网站。原文链接建立系统进化树的意义由于林奈氏分类法出现于进化的概念没有被广泛接受的年代，所以系统发育分析可以用来测试现有的生物分类系统，确定哪些分类与进化历史一致，哪些需要修改。Monophyletic groups (clades)一个单系群（monophyletic group) 包括所有的拥有一...

2020-04-13 03:00:42 6779

原创生信笔记：序列同源性、相似性

这是一篇阅读笔记。原文 An Introduction to Sequence Similarity (“Homology”) Searching by William R. Pearson（原文地址），作者是FASTA格式的发明者之一。同源 Homology定义In biology, homology is similarity due to shared ancestry betwe...

2020-04-11 04:46:54 20639

原创 LaTex笔记：模仿Word

之所以这么无聊是因为老师要求必须使用word写实验报告，而且需要使用word默认设置…所以这是一个小白模仿word的初次尝试字体要求：12pt Times New Roman字号和纸张规格：\documentclass[12pt,a4paper]{article}使用包fontspec设置字体：\usepackage{fontspec}\setmainfont{Times New ...

2020-04-08 15:54:06 931

YangRich的博客