网页的解析方式
"""
1.xpath
2.正则
3.css
4.bs4
"""
2.xpath的基本方式
1)环境准备: 火狐浏览器(需要视旧版)
建议使用: Firefox_50.1.0.6186_setup.exe
2)附加组件: firebug firepath
3)基本操作
例如:
1.
//div 查找网页的所有div
//元素标签名[@属性名='具体内容']
//div[@class='box'] 查找class为box的div
2.
//元素标签名[第几个]
//div[@class'box'][2] 查找符合条件的第2个div
3.
//元素/@属性名
//ul/li/div/a/img/@src
4.
//元素/text()
//a/text() 获取标签之间的文本(一级文本)
5.
//元素//text()
//div[@class='box']//text() 获取class为div下所有text文本
6.
//元素[contains(@属性名, '相关属性值')]
//div[contians(@class, 'zhangsan')] 查找class中包含zhangsan的div
7.
//*[@属性='值']
//*[@name='lisi'] 查找name为lisi的元素
8.
//a[text()=''下一页"]/@href
这是方便获取页面的下一页的地址, 但是要注意, 全页面上只有一个下一页可以, 当然具体情况具体分析