- 博客(5)
- 收藏
- 关注
原创 爬虫时候的进度条使用
# 最基本的用法import timefrom tqdm import tqdmfor i in tqdm(range(9)): time.sleep(0.1)# 效果如下>>> 100%|██████████| 10/10 [00:01<00:00, 9.79it/s]# trange类似于tqdmimport timefrom tqdm impor...
2019-09-29 10:54:27 596 1
原创 split和rsplit的使用
今天学到了 rsplit再也不用傻傻傻的数最后一个是第几个了str_temp = "aaa.bbb.cc.dd"ret1,ret2 = str_temp.rsplit(".",maxsplit=1)ret3,ret4 = str_temp.split(".",maxsplit=1)ret5,ret6,ret7 = str_temp.split(".",maxsplit=2)print...
2019-09-14 17:39:59 1185
原创 利用pubchem的 bulk download下载smiles 遇到的会自动删除重复cid的问题发现与解决
今天再利用含cid的文件再pubchem网站获取smiles时发现,网站会自行删除重复cid而只输出一个smile为解决这个问题想了如下办法.1.直接将获取到的txt转为csv与原csv合并:import pandas as pdimport sysdf = pd.read_csv(r'file')df_old = pd.read_csv(r'file_old')df_out = p...
2019-09-11 21:42:08 1743
原创 利用含PUBCHEM_CID的的csv文件获取assaysummary数据
import pandas as pdimport numpy as npimport osimport sysimport requestsdef download(url,file_name): s = requests.Session() response = s.get(url,stream=True) with open(file_name,'ab'...
2019-09-10 17:11:55 1131
原创 利用requests库进行爬虫简介
requests 的基本使用方式其实最常使用的方式也就事 get 和 post 分别用于获取和上传,即用于数据性网站和检索性网站.可用于requests库的 参数header形式为字典,表示所用的User-Agent 如:import requestsurl = "...
2019-09-05 12:48:33 406
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人