上一篇主要是从获取json数据进行爬虫但是其实还有一种方法,在这个博客做一个备注。
- Xpath
我们利用XPath进行html定位,我先是在谷歌第三方下载第三方插件xpath.然后如果我先点击控制台的小箭头,然后得到了这张图的在html的定位再copy xpath, 便可以获取xpath的位置。
示例代码
headers = create_headers()
response = requests.get(page, timeout=10, headers=headers)
html = response.content
soup = BeautifulSoup(html, "lxml")
soup.find()
- 正则表达式
正则表达式就是直接利用html,利用正则表达式进行查找。也可以通过网上的正则表达式进行自己查找的正则表达式对不对。
re.findall()
re.compile()
先简单的记录一下,之后再详细的补充。