用python来爬某电影网站的下载地址

原创 2015年08月07日 09:01:31

首先在这里向大家推荐极客学院好不好,用了才知道。

博客,算是我学习各种IT知识之后的一个总结,CSDN上的大神的博客,让我受益良多,除此之外,还有博客园、脚本之家等等很多的好网站。当然脚本之家的广告着实多了点。而极客学院是我最近一个月才有了解的网站,开始时,自己去注册个号,结果悲剧了,只有3天的使用期限,我可是绑定了手机号的,你才给我三天时间,坑啊。然后一次一个人在群里发链接,点进去送了我一个月,后来我才知道,原来邀请送时间的,后来一个月变成一年了,哈哈,然后在这段时间,学了好多东西,python就是其中之一。

唠叨了有点多,进入正题。 

一.工具:

1.基本的python环境

2.requests 这个类库要装上

3.pycharm 开发环境。

4.强调一下,所有操作均在windows操作系统上,小弟没钱用不起高大上的Mac(要给我打钱的,可留言,^_^)

 二、需要掌握的知识

1.python基础知识。去学 极客学院

2.正则表达式 基础不了解的,去学。正则表达式

三、代码分析

#coding = utf-8
import requests
import re
import sys
import os
from os.path import join,getsize

reload(sys)
sys.setdefaultencoding('utf8');
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'}
html = requests.get('http://www.dy2018.com/')
html.encoding='gbk'
# print html.text
filehandler = open('F:/document/python/python_dy2018.com.txt', 'wb+')
i=0;
html2 = requests.get('http://www.dy2018.com/')
html2.encoding='gbk'
target = re.findall('<div class="title_all">(.*?)</div>',html2.text,re.S)
for each in target:
    # print each
    content = re.findall('<div class="co_(.*?)</div>',html2.text,re.S)
    for each1 in content:
        a = re.findall('<a href=\'(.*?)\'',html2.text,re.S)
        for each1 in a:
            url =  'http://www.dy2018.com/'+each1
            htmlChild =requests.get(url)
            htmlChild.encoding='gbk'
            lianjie = re.findall('bgcolor="#fdfddf"><a href="(.*?)">ftp',htmlChild.text,re.S);
            title = re.findall('bgcolor="#fdfddf"><a href="(.*?)">ftp',htmlChild.text,re.S);
            for eachtitle1 in title:

                file = open('F:/document/python/'+str(i)+'.txt','wb+')
                print eachtitle1
                for eachtitle in lianjie:
                    print eachtitle
                    file.write(eachtitle+'\n')
            i+=1
                 # eachtitle1 = re.findall('(.*?)',eachtitle,re.S)
                 # for eachtileChild in eachtitle1:
                 #     print eachtileChild
代码大体是这样,写得不好望大家见谅。
1.导入相应的类库 
requests
re 正则表达式
sys  这个的作用是防止乱码
2.requests.get(url) 取得该地址网页的源码
3.html.encoding='gbk'
因为网站用的是gbk 所以要保持一致,否则又乱码
4. open() 方法用来操作文件,详情点击
5.re.findall() 利用正则表达式 搜索你需要的信息

6.print 方法。合理使用这个方法可以让你开发的更加便捷。当然用pycharm的断点调试也可以。     


效果图:   


版权声明:博主地址 http://blog.csdn.net/u013329107 本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013329107/article/details/47333811

python3[爬虫基础入门实战] 爬取豆瓣电影排行top250

先来张爬取结果的截图再来份代码吧# encoding=utf8 import requests import re from bs4 import BeautifulSoup from tkinter...
  • snake_son
  • snake_son
  • 2017-06-24 23:59:32
  • 2930

爬取国内主流电影网站的电影更新情况

项目提出背景:大学,不能不搞点事情,做一个自己的项目,一方面有利于提升自己写代码的水平,一方面有利于自己去学习更多的东西,同时,对这个社会有点帮助。以后就业的话,这说不定还能填简历上去呢。所以从今天(...
  • qq_37129433
  • qq_37129433
  • 2017-06-20 00:14:44
  • 249

Python简单网页爬虫——极客学院视频自动下载

一、需求背景最近正好在研究Python,看了菜鸟教程上的基本教程,然后又再看极客学院的教学视频,向实战进军。极客学院的视频是需要会员才能下载的,客户端倒是可以批量下载,但是下载之后,没有目录结构,文件...
  • supercooly
  • supercooly
  • 2016-03-29 10:48:39
  • 6760

【python 下载器】python下载电影&视频&电视剧

输入视频链接,python后台下载视频# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import r...
  • u013421629
  • u013421629
  • 2017-06-12 19:59:21
  • 2288

python爬取小视频

python爬取小视频 python简单爬虫小程序, python 2.7.12 urllib.urlretrieve
  • Martin201609
  • Martin201609
  • 2016-11-22 13:18:29
  • 7828

python爬取m3u8连接的视频

要求:输入m3u8所在url,且ts视频与其在同一路径下#!/usr/bin/env/python #_*_coding:utf-8_*_ #Data:17-10-08 #Auther:苏莫 #Lin...
  • lingluofengzang
  • lingluofengzang
  • 2017-10-04 23:49:54
  • 1947

Python3爬虫之三网页解析【爬取豆瓣Top电影】

这里再练习一下对豆瓣Top250电影的爬取,其首页长这样         我们需要的信息是电影的序号、电影的名字,因此直接按上一节的方法查看网页代码,解析网页结构,提取我们所需要的信息,完成代码如...
  • u012050154
  • u012050154
  • 2017-08-31 13:46:53
  • 1334

Python抓取百度云电影

近期在自学python,写网络爬虫之类的,偶然一个知乎本科大牛发布的一个Python库可以爬取百度网盘电影的第三方库。 fmovice 0.1.0 输入关键词搜索两大百度网盘提供商中的电影资源 ...
  • Magic_SpongeBob
  • Magic_SpongeBob
  • 2017-04-17 13:43:54
  • 2601

Python爬取视频之日本爱情电影

先放Github传送门: https://github.com/JosephPai/1024Video-Crawler肉身翻墙后,感受一下外面的肮脏世界。墙内的朋友叫苦不迭,由于某些原因,VPN能用的...
  • JosephPai
  • JosephPai
  • 2017-12-25 21:53:53
  • 1003

Python3网络爬虫(八):爱奇艺等主流视频网站的VIP视频破解(在线观看+视频下载)

爱奇艺等主流视频网站的VIP视频破解(在线观看+视频下载) 没有会员,想在线观看或下载爱奇艺、PPTV、优酷、网易公开课、腾讯视频、搜狐视频、乐视、土豆、A站、B站等主流视频网站的VIP视频?又不想...
  • c406495762
  • c406495762
  • 2017-05-07 16:23:51
  • 30254
收藏助手
不良信息举报
您举报文章:用python来爬某电影网站的下载地址
举报原因:
原因补充:

(最多只允许输入30个字)