谷歌学术首页url爬取

最新推荐文章于 2024-06-16 12:30:04 发布

黑啤是真的皮

最新推荐文章于 2024-06-16 12:30:04 发布

阅读量1k

点赞数 1

文章标签：正则表达式 js

本文链接：https://blog.csdn.net/qq_44111565/article/details/106157660

版权

小Demo

因为涉及到js加密，所以写了练练手
直接上代码

import requests
import re
import execjs

url = 'https://ac.scmor.com/'

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36', 
}

response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
page_text = response.text
# print(page_text)

# 因为需要解析出的数据不是标签信息，所以用了正则
pattern = re.compile('autourl\=\[(.*?)\]',re.S)
tag = re.findall(pattern,page_text)[0]
detail_pattern = re.compile('\"(.*?)\"')
tag_list = re.findall(detail_pattern,tag)
print(tag_list)
node = execjs.get()

cxt = node.compile(open("./JsTest1.js",encoding='utf8').read())
for i in tag_list:
    js = 'strdecode("{0}")'.format(i)
    ret_url = cxt.eval(js)
    print(ret_url)

解析结果

在这里插入图片描述

黑啤是真的皮

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
谷歌学术首页url爬取

小Demo因为涉及到js加密，所以写了练练手直接上代码import requestsimport reimport execjsurl = 'https://ac.scmor.com/'headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36', }
复制链接

扫一扫