Python 从零开始爬虫(二)——BeautifulSoup解析网页

最新推荐文章于 2024-04-30 20:51:06 发布

weixin_34130389

最新推荐文章于 2024-04-30 20:51:06 发布

阅读量569

点赞数 1

文章标签： python 爬虫

原文链接：https://segmentfault.com/a/1190000014512935

版权

学了requests，了解了伪装技巧后，终于能爬到些比较正常的网页源码（html文档）了，但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样，没有合适的筛子，你就会把有价值的漏掉了，或者做了无用功把没用的也筛了出来。
淘金者看土质，做筛子。对应到爬虫领域就是观察html，定制筛选器。

稍稍了解HTML

信息都在网页源码里，浏览器通过解析源码来加载我们所看到的东西，那我们是不是也应该学下如何看源码呢？——是的

但不要方，这不是html语法课，做爬虫的，只需了解一下html的原理和标签关系就行了，这跟认亲戚一样简单，你会看家族树的话根本不成问题。

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

    <book>
      <title lang="en">Harry Potter</title>
      <author>J K. Rowling</author> 
      <year>2005</year>
      <price>29.99</price>
    </book>

</bookstore>


有时候会堆成一行，影响观察但不影响使用，丢到排版器排一下就好了
<bookstore><book><title lang="en">Harry Potter</title><author>J K. Rowling</author<year>2005</year><price>29.99</price></book></bookstore>

这是个非常短的示例html，但足以解释所有节点关系。

<bookstore>，<book>这些有尖括号的叫做标签（或节点）,成对存在。bookstore&

最低0.47元/天解锁文章

weixin_34130389

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python 从零开始爬虫(二)——BeautifulSoup解析网页

学了requests，了解了伪装技巧后，终于能爬到些比较正常的网页源码（html文档）了，但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样，没有合适的筛子，你就会把有价值的漏掉了，或者做了无用功把没用的也筛了出来。淘金者看土质，做筛子。对应到爬虫领域就是观察html，定制筛选器。稍稍了解HTML信息都在网页源码...
复制链接

扫一扫

Python 从零开始爬虫(二)——BeautifulSoup解析网页

稍稍了解HTML

“相关推荐”对你有帮助么？