将豆瓣电影top250排名在文本文档中保存

这篇博客介绍了使用Python爬虫抓取豆瓣电影Top250列表,通过正则表达式和URL操作获取电影名称、评分和主演等信息。由于Python2的中文编码问题,实现过程中遇到一些挑战,但完整英文榜单的爬取相对简单。作者还提及通过电影主页链接获取详细信息以避免信息不全的情况。
摘要由CSDN通过智能技术生成

作为python爬虫的第一个试手小程序,因为豆瓣电影top250的获取不需要进行登陆,因此完成这个任务主要是正则表达式和url开启的使用。不过由于python2的一些处理中文编码的缺陷,因此在进行中文匹配时会遇上一些问题,如果是全英文如imbd、billboard这些榜单的获取,所需要解决的问题将要少很多。

以下是主程序,只截取了具有代表性的“电影名”、“评分”和“主演”这三项信息,其他如年份等可以类推完善

另一种获取电影信息的方法是通过排名中给出的电影主页链接来获得更详细的信息,可以避免榜单上信息不全有省略号出现的问题

#coding:utf-8
import urllib
import urllib2
import cookielib
import string
import re
import sys                    #python2 需转化为uft8的编码模式来进行中文写入
reload(sys)
sys.setdefaultencoding('utf-8')

class DouBan250(object):
    pageNum = 0
    def __init__(self):
        self.file = open('DoubanList.txt', 'w')
        self.url = 'http://movie.douban.com/top250'
        self.cookie = cookielib.LWPCookieJar()          #cookie设定可省略
        self.cookieHandler = urllib2.HTTPCookieProcessor(self.cookie)
        self.open = urllib2.build_opener(self.cookieHandler)

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值