Python爬虫之爬取CSDN人工智能栏目的文章

在进行正式开始爬虫之旅前,我们要认识几个Python库:

  • urllib2:Python标准库,该库中提供了一系列针对url的操作方法
  • re:Python标准库,提供了一系列针对字符串匹配的方法
  • BeautifulSoup4:最主要的功能是从网页抓取数据(可以通过pip install BeautifulSoup4安装)

接下来,就可以开始愉快的爬虫了~~

首先,我们先获取要爬取的网页:

将结果打印出来或者直接在网页上,分析爬取的页面:

发现每一篇文章的链接中都有article字段,并且target=“_blank”,根据以上特点,分析该页面,获取到每一篇文章的地址:

将获取到的结果打印出来:

接下来,就是想办法获取每篇文章的标题和内容了,打开一篇文章,一样是分析页面:

发现,每一篇文章的标题都在class=“title-article”的标签中,文章内容都在article标签中,所以根据每一篇文章的url构造Beautiful Soup对象,然后使用该对象的find_all方法查找符合条件的内容,就是我们要的结果了!

使用一个url测试:

成功打印出了我们想要的内容。接下来将获取到的文章保存到文件中,每一篇文章都存入一个TXT文件

可以看到,爬取文章成功了~~~^-^

学习BeautifulSoup4库

学习Python标准库re模块

学习Python标准库urllib2和urllib

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值