零基础爬虫，小白学习

最新推荐文章于 2024-10-17 08:00:29 发布

六六emmm

最新推荐文章于 2024-10-17 08:00:29 发布

阅读量142

点赞数

文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_42544849/article/details/120400872

版权

本文适合Python初学者，将介绍如何从零基础开始学习爬虫，包括使用Python的基础和正则表达式来抓取网页数据。

摘要由CSDN通过智能技术生成

from bs4 import BeautifulSoup
import re  #正则表达式，进行文字匹配
import urllib.request,urllib.error
import xlwt  #进行excel操作


def main():
    baseurl = "https://movie.douban.com/top250?start="
    datalist = getData(baseurl)
    savepath = '豆瓣电影top250.xls'
    saveData(datalist,savepath)
    # askUrl("https://movie.douban.com/top250?start=0")

#定义一个全局变量,指定获取数据的规则
findLink = re.compile(r'<a href="(.*?)">')
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中
findTitle = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd = re.compile(r'<