![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 53
花菜回锅肉
这个作者很懒,什么都没留下…
展开
-
python 连接clickhouse数据库及简单操作
最近研究了下python爬虫,想爬取一些数据存储到clickhouse里,进行分析。由于是新手,搜了好多教程,也踩了好几天的坑,记录一下,防止以后再走弯路。遇到的问题主要集中在建立连接语句上,client = Client(host=‘xx.xx.xx.xx’, port=8900, user=‘default’, password=‘xxxxx@xxxxx’, database=‘default’)参数赋值方式。使用 host= 格式赋值端口用错问题。原创 2024-01-18 20:51:40 · 2041 阅读 · 0 评论 -
clickhouse安装及简单使用
clickhouse设计比较精简,具有强大的数据写入性能、极其高效的查询性能、高效压缩存储,单机部署性能丝毫不逊色于传统的大数据集群。由于使用体验简单直接,使得运维工作同样变的简单。版本迭代相当迅速,主动兼容了jdbc、mysql和postgresql这些成熟产品,周边生态成熟。非常适合用来搭建数据仓库。clickhouse的官网文档有中文版,写的还是比较全的,可以多去参考查阅。原创 2024-01-18 18:11:14 · 1563 阅读 · 0 评论 -
hadoop dfs web页面访问增加鉴权
装好了Hadoop,通过浏览器访问,发现竟然不需要鉴权就能访问,且暴露了很多服务器层文件路径信息,基于多年积累的安全意识,必须得配置些鉴权信息,就有了该文,仅做学习记录,下次自己再装时能提高效率。原创 2024-01-09 19:18:41 · 488 阅读 · 0 评论 -
flume taildir source 采集合并日志
taildir source 可以监控一批文件,实时采集信息,且支持断点续传(agent重启后不会重复采集)该场景下,同时监控两个日志文件,一个是docker容器日志,一个是MySQL的系统日志1、使用file_roll sink,重启flume 会新创建一个储存文件,不管source是 exec 还是taildir2、taildir断点续传只是在内容上接续,但不是在原文件中以上是个人实验所得,若有不合适地方,欢迎大家指正。原创 2024-01-09 14:52:13 · 499 阅读 · 0 评论 -
flume 使用 exec 采集容器日志,转储磁盘
flume 使用 exec 采集容器日志,转储磁盘在该场景下,docker 服务为superset,flume 的sources 选择 exec , sinks选择 file roll 。原创 2024-01-03 15:45:25 · 575 阅读 · 1 评论 -
flume 安装及简单使用
flume 安装及简单示例原创 2024-01-03 10:15:26 · 438 阅读 · 1 评论 -
开源可视化大屏superset Docker环境部署
superset是俄罗斯开源的一款可视化大屏,用于数据可视化探索,含有丰富的图表组件,可以支持接入各种数据源。原创 2023-12-26 12:48:20 · 739 阅读 · 0 评论