一.爬虫简单介绍
爬虫是什么?
爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序.
爬虫程序包括哪些模块?
python中的爬虫程序主要包括,requests请求库,seleium请求库,xpath和BeautSoup4解析库,
爬取校花网需要使用到哪些模块?
校花网结构简单,而且没有任何防爬手段,所在只需要使用requests就可以完成了=.=.
二.具体操作
1.获得网页
网站地址:http://www.xiaohuar.com/
我要爬取的视频网页主页为http://www.xiaohuar.com/list-3-0.html
下一页为http://www.xiaohuar.com/list-3-1.html
总共有五页所以,拼接生成五页主页.
url = 'http://www.xiaohuar.com/list-3-{}.html' for line in range(5): index_url = url.format(line)
2.主页解析
主页中跳转到详情页的连接在这里
#使用正则可以获得详情页网址. re.findall('<div class="items".*?<a href="(.*?)"',index_res,re.S)
3.详情页解析
详情页中的视频连接在这个位置
#正则匹配获得视频的网址 video_url = re.findall('<source src&