大数据
zhipeng-python
这个作者很懒,什么都没留下…
展开
-
[原创] 使用 Ray 分布式计算框架读取 jsonl (json line)
使用 Ray 分布式计算框架读取 jsonl(json line) 格式文件.原创 2023-08-30 14:45:48 · 209 阅读 · 0 评论 -
[原创] Centos 安装部署 Hadoop 集群和 hive
Centos 7.3 安装部署 Hadoop集群环境部署Server: Centos 7.3 (CPU:1 Core Mem: 1G Disk: 40G) Hadoop: 2.8.0 Hive: 2.1.1 JDK: 1.8.0 --- Master: 192.168.10.1 Hadoop-01: 192.168.10.2 Hadoop-02: 192.168.10.3 如果没有特别声明, 所有原创 2017-05-25 18:26:01 · 652 阅读 · 0 评论 -
【原创】elasticsearch 一些整理总结
16年公司检索系统是用的 solr, 但使用过程中发现太糟心, 十分难用- - 17年初换到 es. 把当时整理的知识点记录一下. 机器配置: 1台 centos, 2台 ubuntu. 内存: 64G, CPU: 8核 硬盘: 8TB(SAS, es 数据), 250GB(SSD, 系统) es 版本: 5.4.0 数据量: 目前为止一共40亿数据 内存: jvm 分配31G, ...原创 2018-07-09 16:46:21 · 1327 阅读 · 0 评论 -
[原创] 记一次 ElasticSearch 问题查找 - 数据同步非常慢
开始是三个节点组成的集群, 后加了两台. 但是同步数据变的非常慢. 追查问题后发现是 ulimit 配置不当导致. $ curl 192.168.3.48:9200/_nodes/stats/process?filter_path=**.max_file_descriptors { "nodes": { "bf79DOwKQ4GJxJcsIaFDqQ": { ...原创 2018-08-02 17:16:53 · 2188 阅读 · 0 评论