from bs4 import BeautifulSoup import re #正则表达式,进行文字匹配 import urllib.request,urllib.error import xlwt #进行excel操作 def main(): baseurl = "https://movie.douban.com/top250?start=" datalist = getData(baseurl) savepath = '豆瓣电影top250.xls' saveData(datalist,savepath) # askUrl("https://movie.douban.com/top250?start=0") #定义一个全局变量,指定获取数据的规则 findLink = re.compile(r'<a href="(.*?)">') findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中 findTitle = re.compile(r'<span class="title">(.*)</span>') findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>') findJudge = re.compile(r'<span>(\d*)人评价</span>') findInq = re.compile(r'<span class="inq">(.*)</span>') findBd = re.compile(r'<
零基础爬虫,小白学习
最新推荐文章于 2024-10-17 08:00:29 发布
本文适合Python初学者,将介绍如何从零基础开始学习爬虫,包括使用Python的基础和正则表达式来抓取网页数据。
摘要由CSDN通过智能技术生成