Python爬取豆瓣电影top250

最新推荐文章于 2024-06-24 19:59:02 发布

小刀砸儿

最新推荐文章于 2024-06-24 19:59:02 发布

阅读量2k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/TT_258/article/details/50117691

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

其实这个代码挺简单的，跟上一个药智网爬取没太大区别。

1、想说一下豆瓣的URL的问题，开始的时候总是链接失败，想说代码没问题，最有可能的就是网址的问题了

发现我的网址是直接从任务那复制粘贴的，而真正豆瓣的网址与所给的是有区别的：

#我一开始写的网址
http://movie.douban.com/top250?
#正确的网址
http://movie.douban.com/top250?start=0&filter=

所以网址很重要，一定要事先弄清楚。

2、再有是逐页爬取的时候，网址的具体变化是’start=‘那

便在开头定义了一个变量 page=0和cur_url=http://movie.douban.com/top250?start={page}&filter=

另url=cur_url.format(page=pageIndex*25)

并for i in (1,10),将i的数值传入pageIndex，在下面代码中可以体现。

3、find_all（）函数可以有多种用法，在这我用的是按CSS类名搜索tag的功能，其中因为class在python中是保留字，所以用class_类名搜索tag（BeautifulSoup4.1.1版本后可以使用）

下面是写的代码：

#coding=utf8
import urllib2
from bs4 import BeautifulSoup
class DB():
     def __init__(self):
         #定义page函数
         self.page=0
         self.cur_url="http://movie.douban.com/top250?start={page}&filter="
         self.user_agent = 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'
         self.headers = {'User_Agent' :self.user_agent}
     def getHtml(self,pageIndex):
         try:
             #page的变化规律
             url=self.cur_url.format(page=pageIndex*25)
             request=urllib2.Request(url,headers=self.headers)
             response=urllib2.urlopen(request)
             html=response.read()
             return html
         except  urllib2.URLError,e:
             if hasattr(e,'reason'):
                 print u'loading error',e.reason
                 return None
     def getPage(self):
         for i in range(0,10):
             html=self.getHtml(i)
             soup=BeautifulSoup(html)
             #用CSS类名搜索tag
             SJ=soup.find_all('div',class_='item')
             print SJ
             with open('douban.txt','a+') as f:
                 for item in SJ:
                     f.write(item.get_text('|',strip=True).encode('utf-8')+'\n')
spider=DB()
spider.getPage()