前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:一棵程序树
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun
我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了,一行代码
二、首页要爬取的内容(上图绿色方框中的内容)
1、详情页的链接地址(一行代码)
2、该条新闻所属的标签(一行代码)