2018年11月_Bio Coder

原创 Python pandas 染色体 SNP 位点提取并排序

import pandas as pdfrom pandas import DataFrame as dff = open('C:\\Users\\windows10\\Desktop\\Python练习\\文本流\\1177genetype_hapmapcp1_18_01.txt')d0 = pd.read_table(f, sep = "\t") #header 默认为第一行d0.s...

2018-11-29 00:17:51 1769

原创 Python csv 两种方法实现碱基合并 pandas

import csvf = open(&amp;quot;C:\\Users\\windows10\\Desktop\\Python练习\\文本流\\raw循环合并.csv&amp;quot;)csv_reader = csv.reader(f,dialect='excel') # dialect='excel'为EXCEL编码风格，否则无法读取首行li = [] #避免list，str等系统字眼lis ...

2018-11-23 07:13:22 448

原创 Python csv 文件读取打印

方法一： import csv f = open("C:\\Users\\windows10\\Desktop\\Python练习\\文本流\\raw循环合并.csv") csv_reader = csv.reader(f,dialect='excel') # dialect='excel'为EXCEL编码风格，否则无法读取首行 for line i...

2018-11-23 05:29:58 4175

原创 Linux 文本处理 sed sort awk

less -S text # 原格式显示 sort -n -k2 -k4 1.map &amp;gt; 2.map # 排序，-n 依照数字顺序，-k 列数wc 1.map # 统计文件的行数，字符串数，字节数cat 1.map | awk '($1 ==&quot;1&quot;){ print}' # 读取文件并抽取第一列awk '{print $1 &quot; &quot; $4}'

2018-11-19 23:05:27 151

原创 Linux 文本 sed 命令碱基对替换

sed -i 's/AA/11/g' data3.txt # -i 为替换原文本并替换原文本，而不用重新输出 # s为文本替换命令 # AA为要替换的内容 # 11为替换的内容 # g代表作用于文件文本全文 # data3.txt 为目标文件...

2018-11-18 11:37:02 414

翻译 Python批量爬取堆糖网图片

import urllib.parseimport requests #第三方请求库import json import jsonpath #处理json文件的的提取库from bs4 import BeautifulSoupimport osimport urllibimport re label = 'AI'label = urllib.parse.quo...

2018-11-11 11:30:27 612 2

翻译利用Python批量爬取XKCD动漫图片，并批量保存

import requests, os, bs4url = ‘https://xkcd.com’os.makedirs(‘xkcd’,exist_ok = True)while not url.endswith(’#’):# download the pageprint('downloading the %s...'%(url)) # '%s...'%(url)对字符串及进行替换re...

2018-11-10 16:37:36 439

原创 Python 利用BeautifulSoup和正则表达式来爬取旅游网数据

import reimport requestsimport timefrom bs4 import BeautifulSoupurl = ‘http://www.cntour.cn/’r = requests.get(url)print(r.encoding,len(r.text))soup = BeautifulSoup(r.text, ‘lxml’)data = soup.s...

2018-11-09 21:49:23 439

原创 Python 爬虫爬取单个基因表格数据的生物学功能（urllib+正则表达式）：

Python 爬虫爬取单个基因的生物学功能（urllib+正则表达式）：import reimport urllibfrom urllib import requesturl = ‘https://www.ncbi.nlm.nih.gov/gene/?term=NCOA1’response = urllib.request.urlopen(url)content = respon...

2018-11-08 12:55:39 1505

qq_40256654的博客