扫描一些网站,并希望获得所有的java脚本文件名称和内容。我尝试使用BeautifulSoup的python请求,但无法获取脚本详细信息和contents.am我错过了什么?
我一直在尝试很多方法来寻找,但我觉得在黑暗中磕磕绊绊。这是我正在尝试的代码
导入请求
来自bs4 进口 BeautifulSoup
r =请求。得到(“http://www.marunadanmalayali.com/”)
汤= BeautifulSoup(r.content)
您可以使用以下代码获取所有链接的JavaScript代码:
-
soup.find_all('script')
返回<script>
页面中所有标签的列表。 -
一个列表理解这里使用循环遍历其返回的列表中的所有元素
soup.find_all('script')
。 -
i
是一个类似于dict的对象,用于.get('src')
检查它是否具有src
属性。如果没有,请忽略它。否则,将其放入一个列表(l
在示例中调用)。
输出,在这种情况下如下所示:
[ 'http://adserver.adtech.de/addyn/3.0/1602/5506153/0/6490/ADTECH ; loc = 700; target = _blank; grp = [group]',
'http://tags.exp