大数据
文章平均质量分 69
旻璿gg
这个作者很懒,什么都没留下…
展开
-
结合ollama gemma2:2b大模型来实现数据分析系统的智能交互
我们探索并研究了集成gemma2:2b模型的可行性,这一举措旨在在有限的硬件条件下,为我们的系统注入更高级别的智能性,从而增强用户体验并提高数据分析效率。接着我们要用大模型把用户问题里的实体抽取出来,这就需要我们定义prompt,并利用提示词让大模型帮我们把用户的问题解读成我们可继续执行的实体行为。交互时,用户输入自己的问题,我们无法预测用户输入什么,但是我们可以定义系统能处理什么类型的问题。代码里的关键部分是BASE_PROMPT,我找了GPT帮我润色,如下,感觉可以写的更好一些。原创 2024-08-29 21:37:35 · 291 阅读 · 0 评论 -
UEBA相关资料文章汇集
Gartner 对 UEBA 的定义是“UEBA 提供画像及基于各种分析方法的异常检测,通常是基本分析方法(利用签名的规则、模式匹配、简单统计、阈值等)和高级分析方法(监督和无监督的机器学习等),用打包分析来评估用户和其他实体(主机、应用程序、网络、数据库等),发现与用户或实体标准画像或行为相异常的活动所相关的潜在事件。这些活动包括受信内部或第三方人员对系统的异常访问(用户异常),或外部攻击者绕过安全控制措施的入侵(异常用户)”。原创 2024-08-22 09:27:55 · 402 阅读 · 0 评论 -
Apache Airflow DAG代码自动生成,使用Springboot+Freemarker
目前,Apache Airflow并没有直接支持从图形流程图生成可用的DAG Python代码的官方工具或库。因此,如果要根据自己画的流程图生成Airflow的DAG代码,只能考虑其他手动或自定义的方法,如自定义脚本、模板引擎、或者一些转换工具。自动生成Airflow DAG代码可能涉及到很多复杂的问题,因为需要将图形元素(节点、边等)映射到Airflow的概念(任务、依赖关系等)。在实际实现中,可能需要一些自定义逻辑和调整以确保生成的代码是正确且符合Airflow的要求的。原创 2024-01-26 17:12:08 · 1582 阅读 · 2 评论 -
修复现网漏洞扫描结果项:ZooKeeper 未授权访问[原理扫描]
某主机漏扫后,有高危风险项需要修复:ZooKeeper 未授权访问[原理扫描]原创 2024-01-23 08:42:29 · 1148 阅读 · 1 评论 -
Kaggle之旅3
今天继续Kaggle之旅,尝试Titanic Dataset进行机器学习原创 2024-01-21 20:35:35 · 973 阅读 · 0 评论 -
ElasticSearch 7.x现网运行问题汇集3
某现网ElasticSearch 故障,很长时间unassgined_shards的数量都不减少。原创 2024-01-21 10:48:42 · 947 阅读 · 0 评论 -
ElasticSearch 7.x现网运行问题汇集2
现网indices有数据,如下,GET /_cat/indices得到的结果里,待查索引显示有数据472033条,但是Postman 发查询语句GET /_search match_all,查不出数据;GET /_count也是0。索引状态也是open,而不是close。原创 2024-01-21 10:28:09 · 686 阅读 · 0 评论 -
ElasticSearch 7.x现网运行问题汇集1
现网ElasticSearch health状态变为red,有分片无法assign。原创 2024-01-21 10:10:25 · 1105 阅读 · 0 评论 -
Kaggle之旅2
今天继续学习pandas。并实践下这个dataset。原创 2024-01-20 17:30:41 · 358 阅读 · 0 评论 -
Apache Zeppelin结合Apache Airflow使用1
之前学了Zeppelin的使用,今天开始结合Airflow串任务。Apache Airflow和Apache Zeppelin是两个不同的工具,各自用于不同的目的。Airflow用于编排和调度工作流,而Zeppelin是一个交互式数据分析和可视化的笔记本工具。虽然它们有不同的主要用途,但可以结合使用以满足一些复杂的数据处理和分析需求。使用Airflow编写调度任务,以便在特定时间或事件触发时运行Zeppelin笔记本。原创 2024-01-19 12:14:49 · 1441 阅读 · 0 评论 -
Kaggle之旅1
Kaggle是一个以数据科学竞赛为主题的在线平台。它提供了一个数据科学社区,让数据科学家和机器学习专家可以在这里交流、学习和竞争。Kaggle上有大量的数据集可以供用户使用,这些数据集可以用于挑战、研究和实践。用户可以在Kaggle上提交他们的解决方案,并与其他用户进行比较和讨论。平台还提供了一个排行榜,显示出解决方案的效果和排名。除了数据集和竞赛,Kaggle还提供了各种教程和学习资源,帮助用户提升他们的数据科学技能。Kaggle还有一个社区论坛,用户可以在这里提问、寻求帮助和分享经验。原创 2024-01-16 20:04:44 · 961 阅读 · 0 评论 -
Apache Zeppelin学习记录2
上一章讲了如何使用zeppelin来接入python,本节我们来看看如何使用RESTful API操作zeppelin的notebook和paragraphs。提示:官方API文档见[https://zeppelin.apache.org/docs/0.10.1/usage/rest_api/notebook.html](https://zeppelin.apache.org/docs/0.10.1/usage/rest_api/notebook.html)原创 2024-01-15 09:27:03 · 1352 阅读 · 0 评论 -
Apache Zeppelin学习记录1
Apache Zeppelin是一个开源的数据分析和可视化的交互式笔记本,类似于Jupyter Notebook。它支持多种编程语言(如Scala、Python、R、SQL等)和数据处理工具(如Apache Spark、Hadoop等)。Zeppelin提供了一个集成的开发环境,使用户能够以交互的方式进行数据分析、可视化和共享。Zeppelin的主要特点包括:多语言支持:Zeppelin支持多种编程语言,例如Scala、Python、R、SQL等。用户可以根据自己的需求选择合适的语言进行分析。原创 2024-01-14 11:17:36 · 830 阅读 · 0 评论