Python爬取第一个本地网页
本节内容如下:
- 如何使用pyhton的第三库BeautifulSoup来解析一个网页
第一步 使用BeautifulSoup去解析网页
soup = BeautifulSoup(html,‘lxml’)
第二步 描述要爬取的东西在哪
变量名= soup.select('????')
第三步 从标签中获取你需要的信息
将获取到的信息装在一个容器中,方便我们去查询
-------------------------------------------------------------------------------------------------------------------
开始解析
copy select 的结果:
body > div.main-content > ul > li:nth-child(1) > img
copy XPath的结果:
/html/body/div[2]/ul/li[1]/img
通过Xpath可以认识到一个网页标签是如何进行嵌套的
不同的节点间有不同的关系:
select和Xpath的异同:
相同点:都是顺着从左向右去写