ES
文章平均质量分 50
Assssi_
xxx
展开
-
es去重 获取重复数据后保留最小值ID后进行批量删除
使用脚本进行去重获取重复数据后保留最小值ID后进行批量删除代码如下:controller: /** * 更新并删除重复数据 */ @Async @GetMapping("/up") @ApiOperation(value = "更新并删除重复数据", notes = "更新并删除重复数据") public void up(Integer size) { size = size == null || size原创 2021-04-13 14:30:50 · 761 阅读 · 0 评论 -
python3爬取拉勾网招聘信息并插入ES
目录前言一、获取chorme相同版本的chromedriver二、代码三、效果图前言爬取的是拉勾的职位信息数据,由于官方做了反爬,试了下别人写的获取cookie的方法后失败了,后面又采用了另一个作者写的模拟网页操作的方法后,即可获取成功,暂时还没做登录操作,试了下只能最多爬到15页左右后就跳出需要登录的页面。改了下效果,爬取后添加到es里面进行保存,如果只要导出到csv,可以参考上一篇从es导出csv的文章。一、获取chorme相同版本的chromedriverSelenium 是 Th原创 2021-03-31 16:14:36 · 336 阅读 · 0 评论