python
爱笑的小牙
要想持续有输出,就必须源源不断的输入!
展开
-
批量从bam文件获取指定位置的碱基
批量从bam文件获取指定位置(RS.xlsx)的碱基后输出到一个excel,按照编号进行排序。原创 2023-10-11 09:21:00 · 596 阅读 · 0 评论 -
python实现批量word转pdf
docx2pdf实现word批量转pdf原创 2022-10-26 12:41:08 · 1267 阅读 · 0 评论 -
python对指定段落中的关键字以及表格标记红色
【代码】python对指定段落中的关键字以及表格标记红色。原创 2022-10-26 12:35:39 · 1412 阅读 · 0 评论 -
运行python进行指定内容的文件名查找
python自动化办公原创 2022-09-22 15:06:48 · 363 阅读 · 0 评论 -
python pip 安装模块时的问题
python在windows上安装模块时,常用pip install packages.name或者是.whl文件 pip installC:\Python27\Scripts\pywin32-223-cp27-cp27m-win32.whl,cp 表示python2.7在https://pypi.org/project/pywin32/223/#files里面,有两个2.7可以安装的,但是如果选择pywin32-223-cp27-cp27m-win_amd64.whl会报错,识别不...原创 2020-08-19 11:29:00 · 278 阅读 · 0 评论 -
使用pandas读取excel时遇到的某整数列读出浮点数
平时最喜欢用pandas 读取excel,最近工作时遇到对于某列整数列的表格,总是把整数读出了浮点数,后面加个.0,但其实我不需要变为浮点数。原因是:我这一列整数是由函数vlookup查找来的,没有查找到的是NA办法是:把NA替换为-,就可以了...原创 2020-08-19 09:34:53 · 3071 阅读 · 0 评论 -
用python写的一些小应用
1.根据一个表格是基因,一个工作簿里不同的癌种基因信息放在不同的表格中,要查找表1的每个基因在工作簿里的哪些癌种中存在#!/usr/bin/env python# encoding=utf-8# 目的是根据基因在另一个工作簿中各个表格匹配癌种import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.ExcelFile('../allgene.xlsx')keylist=[]val原创 2020-06-17 14:43:26 · 573 阅读 · 0 评论 -
利用Biopython 快速根据pmid 来下载参考文献信息
之前用的常规爬虫思路(import requests,from bs4 import BeautifulSoup)来下载文章题目,作者,来源等信息时,偶尔会出现各种问题,有那个调试的时间,就自己根据biopython快速写了一个脚本,简单好用。# !bin/python# encoding:utf-8from Bio import Entrezfrom Bio import MedlineEntrez.email = 'xxxx@qq.com'ref = open('ref.txt..原创 2020-06-09 10:23:50 · 1852 阅读 · 1 评论 -
利用python生成二维码 以及批量生成二维码
常见的两种简单生成二维码方法,目测均是很好用的1.MyQR 要求是python3 ,并且二维码上的内容不支持中文#1.生成普通二维码#在程序中导入MyQR包下的模板myqr,其中word参数接收一个字符串作为二维码的内容。from MyQR import myqrmyqr.run(words='https://www.cnblogs.com/Estate-47/p/9661543.html')#2.生成带图片的二维码 图片要和代码保持同一路径 myqr.run(words='...原创 2020-05-11 09:46:30 · 1612 阅读 · 0 评论 -
django基础课程-2
安装了所需要的软件,熟悉了一些基本命令,就可是进行实战操作,总会遇到一些问题,如下:一 .根据视频操作,执行django-admin.py startproject hello_django(命名为hello-django,会提示CommandError: 'hello-django' is not a valid project name. Please use only numbers, ...原创 2020-04-07 15:08:47 · 308 阅读 · 0 评论 -
django基础课程-1
django所用的软件安装步骤列出需要安装的包:pip freeze1.python(目前是3X)2.更新pip (非必须)python -m pip install --upgrade pip3.安装虚拟环境 pip install virtualenv==15.0.1(可以不加版本)4.创建虚拟环境 vitualenv django_back_env5.使用虚拟环境 ...原创 2020-04-07 14:41:44 · 186 阅读 · 0 评论 -
python做方差分析
方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。做方差分析首先必须满足独立,正态检验,方差齐性检验。如果是重复测量方差分析,则必须满足正态检验,方差齐性检验,以及球形检验。之前一直使用的是SPSS,其实也可以用python或者R做方差分析python主要用到的库是...原创 2020-02-06 10:32:09 · 4647 阅读 · 0 评论 -
python编码问题
相关知识1.字节(Byte):计算机中数据存储的基本单位,一个字节是8位.计算机上所有的数据都是由字节组成的2.字符:字符是一个信息单位,是各种文字和符号的统称.(一个英文字母,一个汉字都是一个字符)3.字符集(Characterset):是某个范围内字符的集合,不同的字符集规定了字符的个数.如:ASCII,GB23124.字符码:字符集中每个字符的数字编号5.字符编码(cha...转载 2019-11-21 17:15:24 · 200 阅读 · 0 评论 -
Biopython根据关键词在NCBI上查找文献
Biopython是python的一个库,这个库可以解决很多生物上的问题,使大量的生物数据简单化,是个很好用的包。对于数据库上的各种信息,有专门的函数处理,不用按照常规的文本处理方法,写大量的代码。比如很常见的报告中展示的参考文献,一般思路是有了文章的PMID,然后通过爬虫的方法,获取这些文章的title,author,source等信息。在Biopython中有自己独特的解决方法。在NC...原创 2019-05-29 09:12:19 · 2887 阅读 · 0 评论 -
python解析gff文件中的转录本
1.下载基因组注释文件,选择对应的版本:ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/2.GTF 为General Transfer Format ,熟悉格式http://www.huoyunjn.com/wuliuxinwen/2/33709819.htm。第三列feature- 后面...原创 2019-05-27 13:47:10 · 6567 阅读 · 0 评论 -
pandas 读取文件时的设置header
用pandas 中的read_table()函数时,发现header设置值不一样,所获得的结果也不一样。之前一直认为header = 0 和header = None是一样的,其实是不一样的。读取一个有10行的文件,没有行名1.header =None 时,可以全部读取.2.header =0 时,少一行3.header =1 时,又少一行...原创 2019-05-17 17:26:26 · 16481 阅读 · 2 评论 -
python 提取NCBI上的CDS
# sequence.gb文件https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=genbank#position.txt#生成的文件postion_HLA_seq.fafrom Bio import SeqIOfrom Bio.SeqRecord import SeqRecordfrom B...原创 2019-04-19 12:02:08 · 2563 阅读 · 3 评论 -
python解析omim网页内容
利用zip()函数把四个列表一对一的组合成一个元组。zip()函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。利用map()函数对每一个元素进行函数操作,用匿名函数提取text和去掉\nmap()是 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并...原创 2019-04-19 10:08:20 · 1068 阅读 · 0 评论 -
使用matplotlib包画水平柱状图时出现中文乱码
在window下进行画图时,出现遇到中文就是方框的情况,发现是使用matplotlib包时出现的,这种情况很常见。可以通过matplot的rcParams属性来设置mpl.rcParams['font.sans-serif'] = ['SimHei'] #设置中文字体mpl.rcParams['axes.unicode_minus'] = False比如用matplot包画个水平柱...原创 2019-04-12 09:34:50 · 1675 阅读 · 0 评论 -
同一个python在不同电脑下运行不一样的结果
最近在写一个python脚本,用到了pandas这个包,用pandas读excel,如:这句在同事的电脑上一直是循环第一个表格,sheet_name 没有起到作用,后面通过pandas.__version__查看了包的版本,发现她是0.19.0,我的是0.20.0,在旧版本中,没有sheet_name这个参数,只有sheetname这个参数,所以会一直默认读取第一个表格的内容。 ...原创 2018-08-12 16:45:14 · 6413 阅读 · 0 评论 -
爬取新浪网页
# 唯一性的用id表示,id前面需要加#例如:使用select ,找出所有id为title 的元素alink = soup.select('#title')print alinkprint alink.text# 有相同的用class表示,class前面需要加.例如:使用select 找出所有class为link的元素for link in soup.select('...原创 2018-08-12 18:49:12 · 590 阅读 · 0 评论 -
python 编码问题
转自:https://blog.csdn.net/a657941877/article/details/9063883Python 里面的编码和解码也就是 unicode 和 str 这两种形式的相互转化。编码是 unicode -> str,相反的,解码就是 str -> unicode。剩下的问题就是确定何时需要进行编码或者解码了.关于文件开头的"编码指示",也就是 # -...转载 2019-03-05 10:53:27 · 186 阅读 · 0 评论 -
数据可视化图表
每天一练,贵在坚持!原文链接:https://www.machinelearningplus.com/plots/top-50-matplotlib-visualizations-the-master-plots-python/准备工作import numpy as npimport pandas as pdimport matplotlib as mplimport m...原创 2019-03-08 14:45:43 · 795 阅读 · 1 评论 -
数据可视化图表-带线性回归最佳拟合线的散点图(Scatter plot with linear regression line of best fit)
两个变量如何相互改变,最佳拟合线就是常用的方法。下图显示了数据中各组之间最佳拟合线的差异。 要禁用分组并仅为整个数据集绘制一条最佳拟合线,请从下面的sns.lmplot()调用中删除hue='cyl'参数,此时只有一条最佳线。#初次运行时,总是提示No module named statsmodels.robust.robust_linear_model然后在pip instal...原创 2019-03-15 15:16:59 · 5029 阅读 · 0 评论 -
数据可视化图表-散点图(Scatter plot)
本文是接着这篇内容的:https://blog.csdn.net/Cassiel60/article/details/88350442散点图是用于研究两个变量之间关系的经典的和基本的图表。 如果数据中有多个组,则可能需要以不同颜色可视化每个组。 在 matplotlib 中,您可以使用plt.scatterplot()方便地执行此操作#Import datasetmidwest =...原创 2019-03-12 14:50:16 · 15285 阅读 · 0 评论 -
好的python代码
好的代码不仅要收藏,更要经常拿出来看看,练练!1.简洁的表达式# 快速构成一个字典print dict(zip('abcd',range(4)))#用类似3目运算输出a=1print 'ok' if a ==1 else 'ko'def test(m): return 'a' if m ==1 else 'b'test(1)#推导列表生成字典list1 = ...原创 2019-03-08 11:49:06 · 875 阅读 · 0 评论 -
数据可视化图表-带边界的气泡图(Bubble plot with Encircling)
import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as snsfrom matplotlib import patchesfrom scipy.spatial import ConvexHullimport warnin...原创 2019-03-13 10:36:23 · 2737 阅读 · 0 评论 -
数据可视化图表-抖动图 (Jittering with stripplot)
通常,多个数据点具有完全相同的 X 和 Y 值。 结果,多个点绘制会重叠并隐藏。 为避免这种情况,请将数据点稍微抖动,以便可以直观地看到它们。 使用 seaborn 的stripplot()很方便实现这个功能。import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot a...原创 2019-03-18 16:20:14 · 6726 阅读 · 3 评论 -
数据可视化图表-计数图 (Counts Plot)
避免点重叠问题的另一个选择是增加点的大小,这取决于该点中有多少点。 因此,点的大小越大,其周围的点的集中度越高。import pandas as pdimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport seaborn as sns% matplotlib inline#...原创 2019-03-18 16:27:57 · 1924 阅读 · 0 评论 -
Pandas 中 SettingwithCopyWarning
在用pandas时出现这个警告(SettingWithCopyWarning) 表示你的操作可能没有按预期运行,你应该检查结果以确保没有出错。一般很容易忽略警告,这不是良好的实践,SettingWithCopyWarning不应该被忽略。原文:https://www.dataquest.io/blog/settingwithcopywarning/翻译:https://www.jia...转载 2019-03-26 09:17:43 · 581 阅读 · 0 评论 -
python pandas 的字符数据的处理方法
以前处理字符数据时总是习惯性用readline,数据分析时才用pandas,原来pandas时也有字符的处理方法,大多数和str相似,只是加上了Series。Series.str如:data['列名'].str.split(','),data['列名'].str.replace(',','-')等Series.str.capitalize() 首字母大写Series.str.cat([...原创 2019-03-26 09:34:15 · 405 阅读 · 0 评论 -
查找某一列内容在另外一个表的值
有多种方法可以实现,根据一个表中的某列查找另外一个表的值,常见的思路:1.在excel中用vlookup函数2.python代码,一行行的读取后,通过contains或者其他的是否包含来查找3.linux中的grep一个不常见的思路:把这两个表用pandas 读取后,利用pd.merge()进行相同列名(avsnp150)连接。result = pd.merge(df1...原创 2019-04-08 16:33:10 · 2768 阅读 · 0 评论 -
寻找CSS的定位
1.Chrome开发人员工具(检查-Network-F5)2.Firefox开发人员工具3.InfoLite原创 2018-07-01 20:49:43 · 235 阅读 · 0 评论