本次学习目的:
学会筛选所需要的信息。
解析网页的步骤:
1.使用Beautiful解析网页
Soup = BeautifulSoup(html,'lxml')
描述要爬取的东西在哪里
message = Soup.select()
3.从标签中获得你要的信息
1.使用BeautifulSoup解析网页
Soup = BeautifulSoup(html, 'lxml)
这一句代码的意思是,解析一个html文件,使用lxml这个库,在Python中,解析一个网页有多种的库,比如:html.parse、lxml HTML、lxml XML和html5lib等,选择lxml的原因是这个库相对比较快速且稳定性较好。
2.描述要爬取的元素的位置
网页中对应元素的检查,Copy的格式有两种,selector和XPath。
区别如下:
CSS selector:body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > img
XPath:/html/body/div[1]/div/div[2]/div[2]/div[1]/div/img
上面两行代码是一个网页中的同一个元素的selector和XPath,可以看出,XPath单纯的指出了元素所在的位置,selector则同时标出了元素的样式。
3.筛选所需要的信息
筛选所需要的信息,在逻辑处理上进行操作即可完成,