Python爬取豆瓣榜单Top250～Request，re

最新推荐文章于 2023-07-02 20:02:02 发布

香自寒来

最新推荐文章于 2023-07-02 20:02:02 发布

阅读量818

点赞数 2

分类专栏： Python Python爬虫文章标签： Python Python爬虫

本文链接：https://blog.csdn.net/qq_40843903/article/details/86537443

版权

Python 同时被 2 个专栏收录

9 篇文章 15 订阅

订阅专栏

Python爬虫

1 篇文章 0 订阅

订阅专栏

1**. urllib.request.urlopen(url)打开URL参数指定字符串或者Request对象类型的URL链接地址官方文档：https://docs.python.org/3/library/urllib.request.html
2. re.findall()在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。参考文档：http://www.runoob.com/python3/python3-reg-expressions.html
3. re.compile()用于编译正则表达式，生成一个正则表达式对象参考文档：http://www.runoob.com/python3/python3-reg-expressions.html
4. enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中参考文档：http://www.runoob.com/python/python-func-enumerate.html
5. decode()方法以encoding指定编码格式解码字符串，utf-8 参考文档：http://www.runoob.com/python/att-string-decode.html
6. 爬虫学习参考文档：https://blog.csdn.net/qq523176585/article/details/77836194 **

#导入模块
import re
import urllib.request

def getHtml(url):     # 创建getHtml()函数
   page = urllib.request.urlopen(url)   #urllib.request.urlopen()用于打开一个URL地址
   html = page.read() #用于读取URL上面的数据
   html = html.decode('utf-8') #解码字符串
   return html

def getItem(html):    # 创建一个getItem()函数
   reg = re.compile(r'.*?<span class="title">(.*?)</span>.*?<p class="">.*?(\d+).*?</p>.*?<span class="rating_num" property="v:average">(.*?)</span>',re.S)
   #爬取电影名，上映时间，豆瓣评分
   items = re.findall(reg, html)  #在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
   global index   #声明变量的作用域
   for index, item in enumerate(items, index+1):   #enumerate()函数将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标
      print(index, item)

if __name__=="__main__":
   index = 0
   for i in range(0,226,25):
      url = 'https://movie.douban.com/top250?start='
      url += str(i) + '&filter='   #将int(i)强制转换为str(i)
      html = getHtml(url)
      getItem(html)

   print('恭喜！！！\n爬取豆瓣Top250成功！！！')