在电影天堂的列表页面,爬取每个链接的子页面中的,电影标题以及下载地址,并用正则表达式匹配出想要的电影类型
源代码获取:
https://github.com/akh5/Python/blob/master/movieparise.py
用爬虫程序我们做到的效果就是从分类页面,跳转到每一个电影的页面内爬取我们想要的信息并存储在数据字典内
这里只储存 标题 和下载连接
实现的结果如下:
from lxml import etree
import requests
import re
BASE_DOMAIN = 'http://dytt8.net'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}
```python
from lxml import etree
import requests
import re
BASE_DOMAIN = 'http://dytt8.net'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}
先定义一个根url 方便找到<a>内的href属性后跳转页面,
Headers内是一个存储头部的数据字典,来伪装爬虫程序
主函数:
def spider():
base_url="https://www.dytt8.net/html/gndy/dyzz/list_23_1.html"
movies = []
url = base_url
detail_urls = get_detail_urls(url)
for detail_url in detail_urls:
movie = parse_detail_page(detail_url