Python爬取豆瓣榜单Top250~Request,re

1**. urllib.request.urlopen(url)打开URL参数指定字符串或者Request对象类型的URL链接地址 官方文档:https://docs.python.org/3/library/urllib.request.html
2. re.findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。 参考文档:http://www.runoob.com/python3/python3-reg-expressions.html
3. re.compile()用于编译正则表达式,生成一个正则表达式对象 参考文档:http://www.runoob.com/python3/python3-reg-expressions.html
4. enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中 参考文档:http://www.runoob.com/python/python-func-enumerate.html
5. decode()方法以encoding指定编码格式解码字符串,utf-8 参考文档:http://www.runoob.com/python/att-string-decode.html
6. 爬虫学习 参考文档:https://blog.csdn.net/qq523176585/article/details/77836194 **

#导入模块
import re
import urllib.request

def getHtml(url):     # 创建getHtml()函数
   page = urllib.request.urlopen(url)   #urllib.request.urlopen()用于打开一个URL地址
   html = page.read() #用于读取URL上面的数据
   html = html.decode('utf-8') #解码字符串
   return html

def getItem(html):    # 创建一个getItem()函数
   reg = re.compile(r'.*?<span class="title">(.*?)</span>.*?<p class="">.*?(\d+).*?</p>.*?<span class="rating_num" property="v:average">(.*?)</span>',re.S)
   #爬取电影名,上映时间,豆瓣评分
   items = re.findall(reg, html)  #在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
   global index   #声明变量的作用域
   for index, item in enumerate(items, index+1):   #enumerate()函数将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标
      print(index, item)

if __name__=="__main__":
   index = 0
   for i in range(0,226,25):
      url = 'https://movie.douban.com/top250?start='
      url += str(i) + '&filter='   #将int(i)强制转换为str(i)
      html = getHtml(url)
      getItem(html)

   print('恭喜!!!\n爬取豆瓣Top250成功!!!')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

香自寒来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值