1**. urllib.request.urlopen(url)打开URL参数指定字符串或者Request对象类型的URL链接地址 官方文档:https://docs.python.org/3/library/urllib.request.html
2. re.findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。 参考文档:http://www.runoob.com/python3/python3-reg-expressions.html
3. re.compile()用于编译正则表达式,生成一个正则表达式对象 参考文档:http://www.runoob.com/python3/python3-reg-expressions.html
4. enumerate()函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中 参考文档:http://www.runoob.com/python/python-func-enumerate.html
5. decode()方法以encoding指定编码格式解码字符串,utf-8 参考文档:http://www.runoob.com/python/att-string-decode.html
6. 爬虫学习 参考文档:https://blog.csdn.net/qq523176585/article/details/77836194 **
#导入模块
import re
import urllib.request
def getHtml(url): # 创建getHtml()函数
page = urllib.request.urlopen(url) #urllib.request.urlopen()用于打开一个URL地址
html = page.read() #用于读取URL上面的数据
html = html.decode('utf-8') #解码字符串
return html
def getItem(html): # 创建一个getItem()函数
reg = re.compile(r'.*?<span class="title">(.*?)</span>.*?<p class="">.*?(\d+).*?</p>.*?<span class="rating_num" property="v:average">(.*?)</span>',re.S)
#爬取电影名,上映时间,豆瓣评分
items = re.findall(reg, html) #在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
global index #声明变量的作用域
for index, item in enumerate(items, index+1): #enumerate()函数将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标
print(index, item)
if __name__=="__main__":
index = 0
for i in range(0,226,25):
url = 'https://movie.douban.com/top250?start='
url += str(i) + '&filter=' #将int(i)强制转换为str(i)
html = getHtml(url)
getItem(html)
print('恭喜!!!\n爬取豆瓣Top250成功!!!')