考虑一张网页:
上图的正文部分在哪里呢?
大概是在这一块,正文就是用户关心的部分。一般来说,用户并不怎么关注广告,也不关注导航和链接。因为这并不是我们进入这个网页的主要目的。当然上图只显示了内容的一部分。
那么它的原文呢?
请求:
:curl -o baidu https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6/6699
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 243k 0 243k 0 0 119k 0 --:--:-- 0:00:02 --:--:-- 119k
打开会是一大堆的网络源码,下面只显示部分:
</div><div class="para-title level-2" label-module="para-title">
<h2 class="title-text"><span class="title-prefix">百度</span>公司简介</h2>
</div>
<div class="para" label-module="para"><div class="lemma-picture text-pic layout-right" style="width:220px; float: right;">
<a class="image-link" nslog-type="9317"
href="/pic/%E7%99%BE%E5%BA%A6/6699/0/2cf5e0fe9925bc31b88d80d45cdf8db1ca1370ae?fr=lemma&ct=single" target="_blank"
title="" style="width:220px;height:141px;">
<img class=