python 爬虫

最新推荐文章于 2024-07-08 00:01:13 发布

TTS56

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量507

点赞数

分类专栏： AAA 方便管理文章标签： python 数据挖掘爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40966210/article/details/122155764

版权

python 爬虫

import requests
import os
import time
import threading
import pandas as pd
from bs4 import BeautifulSoup
import random
import re
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}

url1 ='https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE154826'
r = requests.get(url1, headers=headers, timeout=60) # get the whole htlm infomation
soup1 = BeautifulSoup(r.text,'html.parser') 

links = [i for i in soup1.find_all(href=re.compile('ftp:'))]
links = links[3:]

links_rep1 = [str(i)[9:] for i in links]
links_rep2 = [str(i)[:-12] for i in links_rep1]
pd.DataFrame(links_rep2).to_csv('GSE154826.csv')

转载于LGH（FJMU）

import requests
import os
import time
import threading
import pandas as pd
from bs4 import BeautifulSoup
import random

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'}


##
def download_pdf(path,pmid,scihub_adress):
   #pmid = 23480440
   url1 = 'https://pubmed.ncbi.nlm.nih.gov/{}/'.format(pmid)
   r = requests.get(url1, headers=headers, timeout=60) # get the whole htlm infomation
   soup1 = BeautifulSoup(r.text,'html.parser') #
   try:
       DOI = soup1.find('span',class_='citation-doi').text.split(':')[1].strip() #[:-1] 
       # ===============================================&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫

python 爬虫转载于LGH（FJMU）import requestsimport osimport timeimport threadingimport pandas as pdfrom bs4 import BeautifulSoupimport randomheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chr
复制链接

扫一扫

专栏目录

TTS56 CSDN认证博客专家 CSDN认证企业博客

码龄7年

72: 原创

6万+: 周排名

57万+: 总排名

13万+: 访问

: 等级

1262: 积分

286: 粉丝

123: 获赞

148: 评论

693: 收藏

私信

关注

热门文章

分类专栏

最新评论

（CNS复现）CLAM——Chapter_00
m0_61292015: 博主你好，我有一个疑惑，为什么官方给的代码生成的热力图只能是你给出来的这样，我生成的也是这样的。但是它在GitHub上的可视化并不是这样的呀？是后续还需要有什么操作吗？
（CNS复现）CLAM——Chapter_00
照海_: 你好请问解决了吗？我也是这问题
（CNS复现）CLAM——Chapter_00
照海_: File "C:\pythonProject\CLAM\CLAM_Code\CLAM_master\dataset_modules\dataset_generic.py", line 246, in return_splits all_splits = pd.read_csv(csv_path, dtype=self.slide_data['slide_id'].dtype) 主要有问题的地方
（CNS复现）CLAM——Chapter_00
照海_: 有大佬能解释一下这个问题吗？在跑main.py遇到的。就是读不到csv文件。split_dir: splits\task_1_tumor_vs_normal_75 C:\Users\cipoant\anaconda3\envs\test\lib\site-packages\pandas\io\parsers\c_parser_wrapper.py:234: RuntimeWarning: invalid value encountered in cast chunks = self._reader.read_low_memory(nrows) Traceback (most recent call last): File "parsers.pyx", line 1161, in pandas._libs.parsers.TextReader._convert_tokens TypeError: Cannot cast array data from dtype('float64') to dtype('int64') according to the rule 'safe' During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\pythonProject\CLAM\CLAM_Code\CLAM_master\main.py", line 211, in <module> results = main(args) File "C:\pythonProject\CLAM\CLAM_Code\CLAM_master\main.py", line 45, in main train_dataset, val_dataset, test_dataset = dataset.return_splits(from_id=False, File "C:\pythonProject\CLAM\CLAM_Code\CLAM_master\dataset_modules\dataset_generic.py", line 246, in return_splits al
（CNS复现）CLAM——Chapter_00
2301_79648043: 您好！请问您遇到这个问题是怎么解决的？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。