2019年09月_贺俊宏

12月 11月 10月 09月 08月

原创爬虫时候的进度条使用

# 最基本的用法import timefrom tqdm import tqdmfor i in tqdm(range(9)): time.sleep(0.1)# 效果如下>>> 100%|██████████| 10/10 [00:01<00:00, 9.79it/s]# trange类似于tqdmimport timefrom tqdm impor...

2019-09-29 10:54:27 596 1

原创 split和rsplit的使用

今天学到了 rsplit再也不用傻傻傻的数最后一个是第几个了str_temp = "aaa.bbb.cc.dd"ret1,ret2 = str_temp.rsplit(".",maxsplit=1)ret3,ret4 = str_temp.split(".",maxsplit=1)ret5,ret6,ret7 = str_temp.split(".",maxsplit=2)print...

2019-09-14 17:39:59 1185

原创利用pubchem的 bulk download下载smiles 遇到的会自动删除重复cid的问题发现与解决

今天再利用含cid的文件再pubchem网站获取smiles时发现,网站会自行删除重复cid而只输出一个smile为解决这个问题想了如下办法.1.直接将获取到的txt转为csv与原csv合并:import pandas as pdimport sysdf = pd.read_csv(r'file')df_old = pd.read_csv(r'file_old')df_out = p...

2019-09-11 21:42:08 1743

原创利用含PUBCHEM_CID的的csv文件获取assaysummary数据

import pandas as pdimport numpy as npimport osimport sysimport requestsdef download(url,file_name): s = requests.Session() response = s.get(url,stream=True) with open(file_name,'ab'...

2019-09-10 17:11:55 1131

原创利用requests库进行爬虫简介

requests 的基本使用方式其实最常使用的方式也就事 get 和 post 分别用于获取和上传,即用于数据性网站和检索性网站.可用于requests库的参数header形式为字典,表示所用的User-Agent 如:import requestsurl = "...

2019-09-05 12:48:33 406

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫时候的进度条使用

原创 split和rsplit的使用

原创 利用pubchem的 bulk download下载smiles 遇到的会自动删除重复cid的问题发现与解决

原创 利用含PUBCHEM_CID的的csv文件获取assaysummary数据

原创 利用requests库进行爬虫简介

空空如也

空空如也

原创爬虫时候的进度条使用

原创利用pubchem的 bulk download下载smiles 遇到的会自动删除重复cid的问题发现与解决

原创利用含PUBCHEM_CID的的csv文件获取assaysummary数据

原创利用requests库进行爬虫简介