Python爬虫 年轻人不讲武德今天爬爬小说网

最近试了下HTML解析,感觉挺有趣的,忙里偷闲爬上来叨叨一下。

要是有大兄弟也想要相关资料的话戳这里,暗号csdn,欢迎来耍。
在这里插入图片描述
不讲废话了,下面开始。

面对页面解析难题(Gordian Knot)的时候,不假思索地直接写几行语句来抽取信息是非常直接的做法。但是,像这样鲁莽放纵地使用技术,只会让程序变得难以调试或脆弱不堪,甚至二者兼具。在开始解析网页之前,让我们看一些在解析复杂的 HTML 页面时需要避免的问题。

假如你已经确定了目标内容,可能是采集一个名字、一组统计数据,或者一段文字。你的目标内容可能隐藏在一个 HTML“烂泥堆”的第 20 层标签里,带有许多没用的标签或HTML 属性。假如你不经考虑地直接写出下面这样一行代码来抽取内容:

bsObj.findAll("table")[4].findAll("tr")[2].find
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值