我扫描一些网站并希望获得所有的java脚本文件名称和内容
我尝试使用BeautifulSoup的python请求,但无法获取脚本详细信息和http://contents.am我错过了什么?
我一直在尝试很多方法来寻找,但我觉得在黑暗中磕磕绊绊。这是我正在尝试的代码
导入请求
来自bs4 进口 BeautifulSoup
r =请求。得到(“http://www.marunadanmalayali.com/”)
汤= BeautifulSoup(r.content)
您可以使用以下代码获取所有链接的JavaScript代码:soup.find_all('script')返回
一个列表理解这里使用循环遍历其返回的列表中的所有元素soup.find_all('script')。
i是一个类似于dict的对象,用于.get('src')检查它是否具有src属性。如果没有,请忽略它。否则,将其放入一个列表(l在示例中调用)。
输出,在这种情况下如下所示:
[ 'http://adserver.adtech.de/addyn/3.0/1602/5506153/0/6490/ADTECH ; loc = 700; target = _blank; grp = [group]',
'http://tags.expo9。 exponential.com/tags/MarunadanMalayalicom/ROS/tags.js '
'http://tags.expo9.exponential.com/tags/MarunadanMalayalicom/ROS/tags.js ',