soyabean555999-CSDN博客

转载 python爬虫---mechanize

mechanize介绍mechanize是对urllib2的部分功能的替换，能够更好的模拟浏览器行为，在Web访问控制方面做得更全面。它对protocol, cookie, redirection都做了比较好的支持，再结合beautifulsoup和re模块，可以非常有效的解析web页面。常用函数.CookieJar()：设置cookie .Browser()：打开浏览器 .addheaders(...

2018-03-08 17:04:33 1291 2

转载 python多线程学习---threading相关方法

threading模块import threadingimport time def worker(num): """ thread worker function :return: """ time.sleep(1) print("Thread %d" % num) return for i in range(20):

2018-01-19 21:52:35 471

转载 Python多线程与多进程学习----概念

进程与线程1、对于操作系统来说，一个任务就是一个进程。例如打开浏览器，打开word，打开记事本等等，都是独立的任务，它们各自为一个或者多个进程。这里要注意的是，同一种任务打开多个，分别属于不同进程，例如chrome打开多个标签，实际上它创建了多个进程。对于一个任务来说，它有很多子任务，例如播放器，既要解码视频、也要解码音频，所以在进程下存在多线程。在一个进程下

2018-01-19 19:57:17 254

转载 XPath学习笔记

1、XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。XPath 节点XPath 术语节点在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。请看下面这个 XML 文档： Harry Potte

2018-01-19 12:34:42 335

转载 XPath学习笔记---2（特殊用法）

文章转自：http://blog.csdn.net/skyeyesxy/article/details/50838003概要：XPath的介绍与配置XPath的使用XPath的特殊用法Python并行化1.XPath的介绍与配置官方名称：XML路径语言(XMLpathlanguage)用来确定xml文档中某部分位置的语言（查找信息）XPath支持HTML

2018-01-19 12:34:38 787

转载正则匹配---爬虫中常用的

文章转自：http://blog.csdn.net/skyeyesxy/article/details/50837984正则表达式学习链接：http://www.runoob.com/python/python-reg-expressions.html1.正则表达式的符号与方法常用符号：点号，星号，问号与括号（小括号）.:匹配任意字符，换行符\n除外*:匹配前一个字符0次或无限次?:匹配前一个字符

2018-01-19 12:34:11 3266

转载 python并行爬虫

Python并行化并行化介绍Map的使用1)并行化介绍[x] 多个线程同时处理任务[x] 高效[x] 快速2)Map的使用map函数一手包办了序列的操作，参数传递和结果保存等一系列的操作。from multiprocessing.dummy import Poolpool = Pool(计算机核数)results = pool.map(爬取函数，网址列表)# -*-coding: utf-8 -*

2018-01-19 12:34:00 2907 1

转载 Html学习

文章转自：http://blog.csdn.net/skyeyesxy/article/details/508379281.Html和CSS的关系HTML,CSS,JavaScript三门语言为web前端必备语言，一下就是他们的作用：a.HTML是网页内容的载体内容就是网页制作者放在页面上想要让用户浏览的信息，可以包含文字、图片、视频等，即将基本内容放在网页上。b.CSS样式是表现就像网页的外衣。

2018-01-19 12:33:32 352

转载 python爬虫---Requests库的基本使用

什么是RequestsRequests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作。（用了requests之后，你基本都不愿意用urllib了）一句话，requests是p

2018-01-05 15:46:36 1874

原创 python 读取文件注意事项

python三种读写方式： f.read():每次读取整个文件，它通常将读取到底文件内容放到一个字符串变量中，也就是说 .read() 生成文件内容是一个字符串类型 f.readline():每只读取文件的一行，通常也是读取到的一行内容放到一个字符串变量中，返回str类型 f.readlines():每次按行读取整个文件内容，将读取到的

2017-07-29 16:46:00 523

转载 BEDTools使用详细说明

简介1、概述BEDTools是可用于genomic features的比较，相关操作及进行注释的工具。而genomic features通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件表示，用UCSC Genome Browser进行可视化比较。该工具的主要功能如下图.2、与BED

2017-03-17 19:37:40 4070

转载 bowtie和bowtie2用法详解

bowtie 短序列比对工具详解常见的短序列比对工具有很多，如fasta、blast、bowtie、shrimp、soap等。每个工具都有其自身的优点，但同时也具备了一些缺点。权衡利弊，我选择bowtie作为主要的短序列比对工具。它速度很快，比对结果也容易理解。现在举个例子来探讨bowtie的使用方法：现在有GENOME.fa、高通量测序数据Reads.fa，我们希望将Reads.fa比对到...

2017-03-15 19:56:44 36359

转载 bowtie和bowtie2使用条件区别及用法

一、转录组还是基因组？map常用的工具有bowtie/bowtie2, BWA,SOAP1/SOAP2等。这个问题又会被分成两个问题，是基因组测序（DNA-seq）还是转录组测序(mRNA-seq)。其中的区别是对于真核生物而言，mRNA序列与DNA序列并不完全相同，在经历了后剪切之后，成熟的mRNA可能是原基因的一部分，甚至顺序及个别碱基会产生变化。如果是mRNA测序，那map工作就会在

2017-03-15 19:20:53 22925

转载生物信息(bioinformation)学名词解释

什么是高通量测序？高通量测序技术（High-throughput sequencing，HTS）是对传统Sanger测序（称为一代测序技术）革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing，NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能

2017-03-15 10:17:05 2950

转载高通量测序的方式：单端测序、paired-end/mate-paired(PE/MP)测序解释

高通量测序的方式主要有：单端测序、paired-end/mate-paired(PE/MP)测序高通量测序的方式主要有：单端测序、paired-end/mate-paired(PE/MP)测序 [8] 。当要进行多个样品同时测序时可以给不同的样品添加不同接头，混合后一起测序。其中单端测序就是将基因组随机打断后，对每个片段的进行测序。

2017-03-15 09:40:51 14668

转载 samtools常用命令详解

samtools的说明文档：http://samtools.sourceforge.net/samtools.shtmlsamtools是一个用于操作sam和bam文件的工具合集。包含有许多命令。以下是常用命令的介绍1. viewview命令的主要功能是：将sam文件转换成bam文件；然后对bam文件进行各种操作，比如数据的排序(不属于本命令的功能)和提取(这些操作是对ba

2017-03-15 08:59:08 992

java实现PCA，附有详细注释

java实现PCA，附有详细注释java实现PCA，附有详细注释

2018-04-11

利用Python进行数据分析

【名人推荐】, “科学计算和数据分析社区已经等待这本书很多年了：大量具体的实践建议，以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”, ——Fernando Pérez　加州大学伯克利分校研究科学家， IPython的创始人之一, 【内容简介】, 还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程？本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。, 由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。, •将IPython这个交互式Shell作为你的首要开发环境。, •学习NumPy（Numerical Python）的基础和高级知识。, •从pandas库的数据分析工具开始。, •利用高性能工具对数据进行加载、清理、转换、合并以及重塑。, •利用matplotlib创建散点图以及静态或交互式的可视化结果。, •利用pandas的groupby功能对数据集进行切片、切块和汇总操作。, •处理各种各样的时间序列数据。, •通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

2018-01-08

Python数据分析与挖掘实战-张

Python数据分析与挖掘实战-张Python数据分析与挖掘实战-张Python数据分析与挖掘实战-张Python数据分析与挖掘实战-张Python数据分析与挖掘实战-张Python数据分析与挖掘实战-张

2018-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人