python爬虫实现下载电影天堂电影

本文记录了使用Python爬虫从电影天堂网站抓取最新电影信息的过程,通过爬虫技术实现了对电影链接的初步过滤,最终成功获取到586条有效数据。
摘要由CSDN通过智能技术生成

这段时间一直在学习Python爬虫,为了加强学习过程,也为了以后的学习留下点痕迹,特此记录下整篇爬虫的过程。以电影天堂为例,提取出当前界面的最新电影。

# -*- coding:utf-8 -*-
import urllib2
import os
import re

url = 'http://www.dy2018.com/html/gndy/dyzz/index.html'  #这是电影天堂最新电影的网站
conent = urllib2.urlopen(url)
conent =  conent.read()
conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')    #为了避免中文乱码

f = open('conent.txt','w')
f.write(conent)
f.close()

得到的context.txt文件为 电影天堂,浏览器打开后的F12界面,形如下图。(该文件共有1126行)

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值