使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载。快速获得最新最全电影资源!
站点分析
以电影天堂国内电影为例
http://www.ygdy8.net/html/gndy/china/index.html
分析其目录内每一个电影信息存在table中,首先我们要获取每一个电影的详情地址
所有电影信息的详情链接获取
通过request,获取页面源码,xpath取得所有class="tbspan"
的table
下面的class="ulink"
的a
标签的@href
的值,由于是相对地址,因此需要与网站地址base_url
进行拼接。最后得到的就是该页面所有电影的详情地址。
base_url='http://www.ygdy8.net'
url='http://www.ygdy8.net/html/gndy/china/index.html'
def get_content(url):
resp=requests.get(url)
text=resp.content.decode(encoding='gbk', errors='ignore')
html=etree.HTML(text)
urls=html.xpath('//table[@c