旅游评论情感分析(1)---爬虫(xpath re补充篇)

上一篇主要是从获取json数据进行爬虫但是其实还有一种方法,在这个博客做一个备注。

  1. Xpath

查找到XPATH的方法

我们利用XPath进行html定位,我先是在谷歌第三方下载第三方插件xpath.然后如果我先点击控制台的小箭头,然后得到了这张图的在html的定位再copy xpath, 便可以获取xpath的位置。

示例代码

headers = create_headers()
response = requests.get(page, timeout=10, headers=headers)
html = response.content
soup = BeautifulSoup(html, "lxml")
soup.find()
  1. 正则表达式

正则表达式就是直接利用html,利用正则表达式进行查找。也可以通过网上的正则表达式进行自己查找的正则表达式对不对。

re.findall()
re.compile()

先简单的记录一下,之后再详细的补充。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值