Python入门(一):爬虫基本结构&简单实例

爬虫能干什么呢?一句话概括,正常通过浏览器可以获取的数据,爬虫都可以获取。这句话可以说是包罗万象。一是说明了爬虫的本质是一个服务端,实现的功能类似于浏览器;二是说明了爬虫的界限,如果不能正常访问到的数据就不能通过爬虫获取;三是爬虫的最高境界,只要是浏览器能正常访问的都可以用爬虫获取。更多爬虫的神奇用处。

下面我们讲讲爬虫的基本结构和简单实现。这篇文章我不准备详细地讲具体怎么写爬虫,只是先用一个非常简单的实现,给大家看看爬虫是个什么样子。详细的内容我们后面一个一个慢慢说。

一、爬虫的基本结构

让我们忽略掉来自各种各样的资料对于爬虫结构的描述,把问题尽可能地描述简单一点。前面说到,爬虫是一个获取正常浏览器可以获取的数据的自动化获取程序。那么,从这个功能出发,我们需要干的事情其实就两件事情:找到我们需要的网页,然后把他们一个一个处理一遍。(这句话很重要,我们在后面的后面讲到海量数据爬取策略的时候还要回到这句话。)那么问题就来了:一,怎么找到我们需要的网页的那个入口?二,怎么处理我们需要处理的网页?

对于单个页面来说,入口的来源有两种,一种是已知地址,比如我们院的网站的教学研究人员:教学研究人员;

另外一种是你可以通过前面爬下来的网页中获取入口,比如这个页面上所有老师的个人主页。这一点很重要,后面我们在把小爬虫逐步变大的时候还要反复回到这里。

好的,后面的部分,让我们通过解决第二个问题(处理网页)的过程,顺便看看怎么解决第一个问题(获取更多入口)。我们一起开看看一个单页爬虫是怎么实现的。

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Python实例一:简单爬虫 爬虫是指通过程序自动获取互联网上的信息的一种技术。使用Python编写爬虫非常方便,下面是一个简单Python爬虫实例。 示例:爬取豆瓣电影TOP250的电影名称和评分 ```python import requests from bs4 import BeautifulSoup def get_movie_info(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') movie_list = soup.find('ol', class_='grid_view').find_all('li') for movie in movie_list: title = movie.find('span', class_='title').text rating = movie.find('span', class_='rating_num').text print('电影名称:{},评分:{}'.format(title, rating)) def main(): url = 'https://movie.douban.com/top250' get_movie_info(url) if __name__ == '__main__': main() ``` 上述代码首先引入了`requests`和`BeautifulSoup`库,其中`requests`库用于发送HTTP请求获取网页内容,`BeautifulSoup`库用于解析网页内容。 `get_movie_info`函数接受一个URL作为参数,使用`requests`库发送GET请求获取网页内容,并使用`BeautifulSoup`库解析HTML。然后,我们通过CSS选择器找到包含电影信息的`<ol>`标签,再找到每个电影的信息,最后打印出电影名称和评分。 `main`函数简单地调用`get_movie_info`函数,传入豆瓣电影TOP250的URL作为参数。 运行程序后,我们就可以在控制台上看到豆瓣电影TOP250的电影名称和评分了。 这个实例只是一个简单爬虫示例,爬虫还有很多更复杂的应用场景,比如爬取更多的信息、存储数据、处理网页内容等等。希望这个简单实例能帮助你入门Python爬虫

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值