![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
阿飞不修电脑
这个作者很懒,什么都没留下…
展开
-
Python爬虫豆瓣电影Top250个电影数据保存在Excel
from bs4 import BeautifulSoupimport urllib.request,urllib.errorimport reimport xlwt#爬取网页findLink = re.compile(r'<a href="(.*?)">')findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)findTitle = re.compile(r'<span class="title">(.*)&原创 2021-07-23 16:50:15 · 532 阅读 · 0 评论 -
2021-07-21
爬取豆瓣TOP电影各个电影的链接from bs4 import BeautifulSoupimport urllib.request,urllib.errorimport re#爬取网页findLink = re.compile(r'<a href="(.*?)">')def main(): baseurl="https://movie.douban.com/top250?start=" datalist=getDate(baseurl) #savepath=原创 2021-07-21 16:54:57 · 87 阅读 · 0 评论 -
爬虫实例1:爬取豆瓣top电影简介
from bs4 import BeautifulSoupimport urllib.request,urllib.errorimport re#爬取网页def main(): baseurl="https://movie.douban.com/top250?start=" datalist=getDate(baseurl) #savepath=".\\豆瓣电影Top250.xls" print(datalist)def getDate(baseurl):原创 2021-07-21 10:08:49 · 633 阅读 · 0 评论 -
正则表达式教学
re.compile(r" ")创造正则表达式对象,表示规则(字符串的模式),r的意思是忽略特殊符号,防止翻译错误。re.findall(参数1,参数2)参数1:规则参数2:符合规则的字符串原创 2021-07-16 08:20:33 · 56 阅读 · 0 评论