python爬虫之旅--爬取文章

话不多说,先上图在这里插入图片描述
第一步:导入requests,导入re(没用上。。。)导入lxml,引用etree;
如果这几个都没有,自行下载就行了。pip install requests/pip install lxml;

第二步:先把网页爬下来看看情况,url=‘xxxxxxxxxxxxxxxx’;看了下请求方式是get,拼个header头,直接requests.get走你;

第三步:判断页面数据,好家伙,都是文字,大段大段的,直接一个etree.HTML(),然后用xpath选取需要的内容
title = text.xpath(’.//div[@class=“bt”]/text()’)
text = text.xpath(’.//div[@class="main c_666 "]//span/text()’)
接下来判断一下title和text是否有内容,因为如果循环爬取的话,说不准有些id对应的文章就没有呢,所以判断一下;
如果没有内容,跳过,有内容,写入文件中;

最后,一篇文章能爬取下来了,那就搞一个循环走你!

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值