大数据
文章平均质量分 81
大数据
苍煜
这个作者很懒,什么都没留下…
展开
-
一文了解Simhash原理和用法-计算文章相似度
import com// 停用词 private static Set < String > stopWordsSet = new HashSet < >();// 词频权重 private static Map < String , Double > idfMap = new HashMap < String , Double >();// 平均idf private static double idfAverage = loadIdfDict(idfMap);原创 2024-05-11 11:18:43 · 921 阅读 · 1 评论 -
word导入导出-Apache POI 和 Poi-tl
poi-tl是一个基于Apache POI的Java库,用于操作Microsoft Office文档,包括Word文档(.docx)、Excel电子表格(.xlsx)和PowerPoint演示文稿(.pptx)。它提供了一组简单易用的API,使开发人员能够轻松地创建、读取和修改Office文档。简单易用:poi-tl提供了一组简单易用的API,使开发人员能够快速上手并进行Office文档的操作。它提供了丰富的方法和属性,以满足不同的需求。原创 2023-12-22 18:29:57 · 2365 阅读 · 1 评论 -
EasyExcel-最简单的读写excel工具类
easyExcel 的官网文档给的示例非常全,可以参考。原创 2023-12-08 18:28:04 · 1282 阅读 · 0 评论 -
从视频中截取指定帧图片
我们在很多时候需要对视频文件进行分析,或者对视频产生缩略图。因此视频截取技术必不可少。原创 2023-12-08 15:19:46 · 1431 阅读 · 0 评论 -
selenium 动态爬取页面使用教程以及使用案例
Selenium是一款功能强大的自动化Web浏览器交互工具。它可以模拟真实用户在网页上的操作,例如点击、滚动、输入等等。Selenium可以爬取其他库难以爬取的网站,特别是那些需要登录或使用JavaScript的网站。Selenium可以自动地从Web页面中提取数据,例如价格、评论、评分等等。Selenium是一款非常实用的工具,可以帮助用户更好地利用Web技术,提高工作效率和数据质量。原创 2023-09-05 10:36:44 · 3918 阅读 · 0 评论 -
Jsoup使用教程以及使用案例
jsoup 是一款基于 Java 的HTML解析器,它提供了一套非常省力的API,不但能直接解析某个URL地址、HTML文本内容,而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据,所以 jsoup 也可以被当做爬虫工具使用,从网站获取dom结构,从而解析下载数据。tagname: 通过标签查找元素,例如通过"a"来查找< a >标签。#id: 通过ID查找元素,比如通过#logo查找< p id=“logo”>原创 2023-03-30 16:07:22 · 11106 阅读 · 1 评论