python爬虫之旅--爬取文章

最新推荐文章于 2023-04-25 14:45:00 发布

也曾梦想走天涯

最新推荐文章于 2023-04-25 14:45:00 发布

阅读量979

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinxianfan/article/details/118696868

版权

话不多说，先上图在这里插入图片描述
第一步：导入requests，导入re（没用上。。。）导入lxml，引用etree；
如果这几个都没有，自行下载就行了。pip install requests/pip install lxml;

第二步：先把网页爬下来看看情况，url=‘xxxxxxxxxxxxxxxx’；看了下请求方式是get，拼个header头，直接requests.get走你；

第三步：判断页面数据，好家伙，都是文字，大段大段的，直接一个etree.HTML(),然后用xpath选取需要的内容
title = text.xpath(’.//div[@class=“bt”]/text()’)
text = text.xpath(’.//div[@class="main c_666 "]//span/text()’)
接下来判断一下title和text是否有内容，因为如果循环爬取的话，说不准有些id对应的文章就没有呢，所以判断一下；
如果没有内容，跳过，有内容，写入文件中；

最后，一篇文章能爬取下来了，那就搞一个循环走你！

也曾梦想走天涯

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之旅--爬取文章

话不多说，先上图第一步：导入requests，导入re（没用上。。。）导入lxml，引用etree；如果这几个都没有，自行下载就行了。pip install requests/pip install lxml;第二步：先把网页爬下来看看情况，url=‘xxxxxxxxxxxxxxxx’；看了下请求方式是get，拼个header头，直接requests.get走你；第三步：判断页面数据，好家伙，都是文字，大段大段的，直接一个etree.HTML(),然后用xpath选取需要的内容title = te
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。