BigData
提莫_
将来的你,一定会感谢现在拼命的自己
展开
-
ELK-Elasticsearch地理信息存储及查询之Geo_Point
https://www.cnblogs.com/kangoroo/p/6050692.htmlhttps://blog.csdn.net/coffee_shop/article/details/107110707导语:Elasticsearch提供了丰富的搜索和分析功能,地理位置功能可以让我们把基于地理位置的搜索、聚合、计算与全文搜索、结构化搜索和分析结合到一起。在这里易观的技术小哥哥,就跟大家做一个交流和探讨。一、基本概念1. GeoHashGeoHash是一种将经纬度坐标(lat/lon原创 2021-03-11 15:47:02 · 787 阅读 · 0 评论 -
ELK-1.5亿数据处理完整过程
#filebeat配置 filebeat.yml -源文件类型、路径、encoding(编码为utf-8可以忽略) -输出地方 logstash或ES filebeat启动命令 -filebeat.exe -e -c filebeat.yml#logstash配置 logstash.conf文件 -启动conf文件配置 见下面logstash-geonames.conf logstash启动命令 -logstash.bat -f ../config/原创 2020-12-09 16:39:20 · 539 阅读 · 0 评论 -
《Spark 官方文档》机器学习库(MLlib)指南
Sparkxyf/AiLearninghttps://github.com/Sparkxyf/AiLearning原创 2020-09-21 14:53:38 · 245 阅读 · 0 评论 -
ELK-Elasticsearch第二谈(ES核心概念、ES简单操作、构建查询、查询结果过滤排序分页、term和match查询区别、自定义查询结果高亮)
Elasticsearch第二谈(ES核心概念、ES简单操作、构建查询、查询结果过滤排序分页、term和match查询区别、自定义查询结果高亮) Elasticsearch相关概念 1、Elasticsearch面向文档、关系行数据库、和Elasticsearch对比 Elasticsearch的文件存...转载 2020-09-16 10:19:53 · 619 阅读 · 0 评论 -
ELK(-head)操作csv(txt)
elasticsearch-head 操作 elasticsearch 7.8 1、Filebeat(采集数据)+Elasticsearch(建立索引)+Kibana(展示) 2、Filebeat(采集数据)+Logstash(过滤)+Elasticsearch(建立索引)+Kibana(展示) ##################我们采用这种 3、Filebeat(采集数据)+Kafka/Redis/File/Console(数据传输)+应用程序(处理,存储,展示) 4、Filebeat(采原创 2020-09-09 14:50:45 · 730 阅读 · 0 评论 -
Flink最强学习资源合集!
王知无出品,Flink最强学习资源合集!https://www.cnblogs.com/importbigdata/p/11431859.html原创 2020-08-17 15:12:45 · 225 阅读 · 0 评论 -
一键式完全删除CDH 6.3.1
CDH集群的安装部署虽然步骤比较多,但只要严格按照文档操作,一般不会有太大问题。然而,如果安装过程中出错,或因为其它原因需要重新安装CDH,在不重装操作系统的前提下,是比较困难的。难点在于需要删除的东西太多,不删干净了非常容易造成安装失败。网上找的所谓“CDH完全卸载”其实都不够完全。经过一天的反复尝试,终于写了一个一键式删除CDH脚本,在我自己的测试环境下是可行的。删除脚本文件remove_cloudera.sh内容如下:#!/bin/bash# 停止CM服务service cloudera-s转载 2020-08-14 13:31:41 · 523 阅读 · 0 评论 -
Centos7安装大数据平台CDH 6.2-一些细节补充
centos7 + CM6.2.0root 123456mysql8.0.xxmysql-connect-java-1.54.xx1、图形界面下的terminal实际上是用一个应用程序连接到terminal的;2、可以使用以下命令:GUI和命令界面切换命令 ctrl+alt+F2 alt+F13、vim/vi的三种模式(vim 是vi 的升级版本)正常模式——按Esc进入, 左下角显示文件名或为空 ,输入vim命令前都需要先按Esc!该模式下又分为命令模式操作和末行模式操原创 2020-08-12 16:01:02 · 646 阅读 · 0 评论 -
计算机的cup颗数、核数、线程数
只要买过/卖过电脑,肯定听过这几个名词;1.cpu颗数:封装在集成电路(IC)中的处理器个数, 普通计算机多为单颗cup。2.cpu核数:是指物理上,也就是单颗CPU上存在着几个核心。比如,双核就是包括2个相对独立的CPU核心单元组,四核就包含4个相对独立的CPU核心单元组。3.cup支持的线程数:是一种逻辑的概念,简单地说,就是模拟出的CPU核心数。比如,可以通过一个CPU核心数模拟出2线程的CPU,也就是说,这个单核心的CPU被模拟成了一个类似双核心CPU的功能。我们从任务管理器的性能标签原创 2020-08-10 17:02:22 · 4799 阅读 · 1 评论 -
Centos7安装大数据平台CDH 6.2-HA
前提 zookeeper 集群已经启动起来了cloudera manager配置HDFS HA的高可用注意*最好在第一次部署集群是就进行HA配置,这样namenode datanode都是干净的不会出现namemode format失败,namenode和datanode clusterID不一致问题注意*确保namemode节点目录路径权限, 确保hdfs上创建/tmp目录,/user目录 chown hdfs:root -R /dfs 或 chown hdfs:hadoop -R /dfs原创 2020-08-06 15:37:10 · 233 阅读 · 0 评论 -
Centos7安装大数据平台CDH 6.2-实践验证可行
CDH 和Cloudera Manager介绍1.CDH介绍目前Hadoop比较流行的主要有2个版本,Apache和Cloudera版本。Apache Hadoop:社区人员比较多,更新频率比较快,但是稳定性比较差,安装配置繁琐,实际使用者少。Cloudera Hadoop(CDH):Cloudera公司的发行版本,基于Apache Hadoop的二次开发,优化了组件兼容和交互接口、简化安装配置、提供界面统一管理程序。CDH 提供以下特性:灵活性:存储任何类型的数据并使用各种不同的计算框原创 2020-08-03 16:54:12 · 607 阅读 · 0 评论 -
CentOS7安装MySQL(完整版)
一、检查系统是否安装老版本,有的话干掉#yum list installed | grep mysqlmysql-libs.x86_64 5.1.73-5.el6_6 @anaconda-CentOS-201508042137.x86_64/6.7#yum -y remove mysql-libs.x86_64二、下载并安装MySQL官方的 Yum Repository具体选择什么版本查看http://repo.mysql.com来定wget http://repo.mysql.原创 2020-08-03 11:04:09 · 3066 阅读 · 1 评论 -
centos7.5配置SSH
标题centos7.5开启ssh服务https://blog.csdn.net/menglongfc/article/details/95732671标题CentOS7做ssh免密登录(1)实验环境 两台CentOS7: youxi1 192.168.1.6 youxi2 192.168.1.7 这里我将防火墙关闭进行实验,如果防火墙开启,请将端口加入到防火墙规则中。(2).目标 在ssh端口不为22的情况下,进行单向免密登录或双向免密登录(端口不一致)原创 2020-07-31 17:11:39 · 633 阅读 · 0 评论 -
centos7并且克隆出多个
接下来我就具体讲讲怎么使用VMware的克隆以及IP的配置吧。首先,这些的前提是你已经在虚拟机上安装了centos7系统。第一步,直接点击clone选择安装位置以及名字,点击完成,等待clone finish。第二步:开始生成新的MAC地址点击Generate,生成新的MAC地址,复制记住后面需要用到第三步:开始配置IP,MAC以及更改主机名和主机名与地址的映射。打开克隆的Centos 7系统,然后输入命令ip addr可以看到网卡名,这个我们后面命令需要。然后输入这原创 2020-07-31 15:51:08 · 275 阅读 · 0 评论 -
CentOS7使用集群同步脚本对配置文件同步分发
CentOS7使用集群同步脚本对配置文件同步分发 1.介绍使用集群同步脚本对配置文件同步分发2.操作1)在/root目录下创建bin目录,并在bin目录下创建文件xsync,文件内容如下:[root@hadoop101 ~]$ mkdir bin[root@hadoop101 ~]$ cd bin/[root@hadoop101 bin]$ vi xsync在该文件中编写如下代码(其中第5步需要按自己集群情况配置分发范围)复制代码#!/bin/bash#1 获取输入参数个数原创 2020-07-31 15:17:47 · 336 阅读 · 0 评论 -
备份文档——CentOS7.5安装过程
1..系统安装 1)系统安装初始网络配置 初始安装调整网卡 tab----输入net.ifnames=0 biosdevname=0 回车后进入安装界面 选择NETWORK & HOST NAME configure-----激活网卡功能 配置ipv4地址 主机名配置 ----enabled开启网卡 2) 系统分区设置 选择INSTALLATION DESTNATION 选择原创 2020-07-31 15:12:58 · 157 阅读 · 0 评论 -
Vmware Centos7.5 NAT网络配置详细教程
1、打开vmware,点击编辑->虚拟网络编辑2、选中“NAT模式”,点击“更改设置”3、点击“NAT设置”,查看“子网掩码”和“网关IP”,将其记录下来,后面需要用到4、进入vmware界面,右击虚拟机,选择“设置”,将网络适配器更改为“NAT模式”5、开启虚拟机,进入centos76、cd /etc/sysconfig/network-scripts 到目录下面找到ifcfg-ens*看开头的文件7、vi ifcfg-ens33 编辑此文件,添加如下配置上图原创 2020-07-31 15:06:03 · 751 阅读 · 0 评论 -
Ubuntu18.04LTS搭建CDH6.3.0环境-版本二
CM在线安装版本 注意事项 0.最好是干净的环境 1.root身份 2.建议主server在线安装 下载好资源后(默认下载到的位置/var/cache/apt/archives) 其他节点直接发过去安装包.deb 然后进行本地安装 dpek --install xxx.deb 4.sudo apt-get install openjdk-8-jdk(server节点被这个替换了 不然总是提示找不打java) 3.mysql-connector-java-8.20.jar 最好原创 2020-07-30 15:57:45 · 1420 阅读 · 5 评论 -
Ubuntu18.04LTS搭建CDH6.3.0环境-版本一 推荐
Ubuntu 使用apt = Centos 使用yum安装前的准备1.相关离线资源(也是在线安装时的自动下载资源地方)参考地址 https://archive.cloudera.com/cm6/6.3.0/ubuntu1804/apt/ https://archive.cloudera.com/cdh6/6.3.2/parcels/2.ubuntu中apt-get安装与默认路径 一、apt-get 安装(ubuntu使用apt如果是centos则使用yum安装方式) deb是debi原创 2020-07-28 17:04:19 · 950 阅读 · 1 评论 -
Ubuntu 安装、卸载mysql和简单操作
安装安装mysqlubuntu上安装mysql非常简单只需要几条命令就可以完成。sudo apt-get install mysql-server //服务端sudo apt-get install mysql-client //客户端sudo apt-get install libmysqlclient-dev //程序编译时链接的库安装过程中会提示设置密码什么的,注意设置了不要忘了,安装完成之后可以使用如下命令来检查是否安装成功:sudo原创 2020-07-28 10:08:57 · 248 阅读 · 0 评论 -
Kibana dev-tools常用命令
V-7.8.0 Dev tools 常使用命令集锦GET _search{ "query": { "match_all": {} }}PUT /my_store{ "settings": { "number_of_shards": 1 }, "mappings": { "products": { "properties": { "productName": { "type": "text"原创 2020-07-24 09:48:39 · 788 阅读 · 0 评论 -
ELK搭建过程重点问题集锦和资源下载最佳来源
*版本 elastic-7.8.0 要求jdk版本在11以上 JDK-11.0.5 node-v10.xx *D:\java\jdk8 改为了 C:\Program Files\Java\jdk-11.0.5软件下载地址 http://elasticsearch.cn/download/ http://nodejs.cn/download/ 空间地理分析kibana 官方地址 https://www.elastic.co/guide/en/kibana/current/maps.ht原创 2020-07-24 09:47:02 · 336 阅读 · 0 评论 -
ubuntu本地maven仓库配置的setting.xml(使用win7搭建的本地中央仓库nexus)
<?xml version="1.0" encoding="UTF-8"?><settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings原创 2020-07-24 09:29:09 · 540 阅读 · 0 评论 -
大数据项目实践过程笔记
开发工具intelijidea 2.19.3目前围绕Hadoop体系的大数据架构包括:传统大数据架构数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。依然保留了ETL的动作,将数据经过ETL动作进入数据存储。数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。流式架构在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。经过流处理加工后的数据,以消息的形原创 2020-07-24 09:23:51 · 2728 阅读 · 0 评论 -
Hadoop基础-Apache Avro串行化的与反串行化
标题Hadoop基础-Apache Avro串行化的与反串行化https://www.cnblogs.com/yinzhengjie/p/9127535.html标题官方demohttp://avro.apache.org/docs/1.9.1/gettingstartedjava.html原创 2020-07-24 09:12:39 · 70 阅读 · 0 评论 -
VMware+Ubuntu环境配置
虚拟机ubuntu磁盘空间不足的扩容https://blog.csdn.net/u013755520/article/details/91978293https://www.jianshu.com/p/836d0b98c187聊聊 Ubuntu 18.04 静态IP设置https://blog.51cto.com/shujuliu/2294058https://blog.csdn.net/weixin_42776979/article/details/81450213?utm_source=bl原创 2020-07-23 15:45:05 · 150 阅读 · 0 评论 -
Hadoop运行原理剖析
MapReduce切片、分区和分组的理解https://www.cnblogs.com/jiangbei/p/8395045.htmlhttps://www.cnblogs.com/at0x7c00/p/8064182.htmlhttps://blog.csdn.net/paul250670/article/details/100523812Job作业集群提交流程分析图https://blog.csdn.net/hellozhxy/article/details/82497235MapRe原创 2020-07-23 15:38:04 · 91 阅读 · 0 评论 -
大数据平台架构的理解
什么是大数据平台有三个疑问:1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?大数据平台个人理解:***是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个完整的大数据业务解决方案,而原创 2020-07-23 15:11:22 · 597 阅读 · 0 评论 -
大数据知识体系
潇洒劫个妞-大数据体系笔记教程https://www.cnblogs.com/xsjgn/tag/it18%E6%8E%8C/、阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1)Linux系统概述2)系统安装及相关原创 2020-07-23 15:03:47 · 1264 阅读 · 1 评论 -
Hadoop启动问题集锦
图解SSH原理https://www.jianshu.com/p/33461b619d53Java API操作Hadoop可能会遇到的问题以及解决办法https://www.zifangsky.cn/1292.htmlhadoop多次(两次以上)初始化以后,无法启动DataNode节点(已解决)https://blog.csdn.net/lukabruce/article/details/80277846?utm_source=blogxgwz6...原创 2020-07-23 14:49:18 · 103 阅读 · 0 评论 -
Hadoop安装参考
推荐一个超详细的Hadoop安装教程,已有32万次点击量https://cloud.tencent.com/developer/article/1498124由于安装文件免安装程序,故只需要将对应文件复制到相应目录,然后配置环境变量即可;1、移动文件到指定目录(1)在/usr/local下新建一个java目录sudo mkdir /usr/local/java(2)进入到免安装程序目录下,本系统是放在~/Downloads/下,故执行命令:cd ~/Downloadsmv jdk原创 2020-07-23 14:38:34 · 101 阅读 · 0 评论 -
大数据示例项目
视频访问量实时统计项目学习+applogs流量数据项目学习https://www.cnblogs.com/tongxupeng/category/1381765.htmlhttps://github.com/CodeTxp/bigDataPro原创 2020-07-22 10:50:19 · 179 阅读 · 0 评论 -
Spark核心技术与实战-阿里云
Spark核心技术与实战-阿里云https://yq.aliyun.com/topic/69?utm_content=m_17543原创 2020-07-17 09:43:32 · 163 阅读 · 0 评论 -
Spark命令笔录(4)-运行模式
Spark程序运行需要资源调度的框架,比较常见的有Yarn、Standalone、Mesos等,Yarn是基于Hadoop的资源管理器,Standalone是Spark自带的资源调度框架,Mesos是Apache下的开源分布式资源管理框架,使用较多的是Yarn和Standalone,本篇浅谈Spark在这两种框架下的运行方式。1 StandaloneStandalone分为两种任务提交方式:client,clusterStandalone-client任务提交命令:【默认是standalon.转载 2020-07-16 10:23:07 · 196 阅读 · 0 评论 -
Hadoop实践笔记
#########ubuntu18.04 lts#####################hadoop3.2.0#########################jdk1.8.0_11################客户机桌面模式和文本模式切换1.ctrl+alt+f6 //文本模式2.ctrl+alt+f7 //桌面模式开机进入文本模式1.修改/etc/default/grub文件 [/etc/default/grub] ... #图形模式 GRUB原创 2020-07-15 15:01:23 · 809 阅读 · 0 评论 -
Spark命令笔录(3)-参数调优和数据倾斜处理
1. spark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: 复制代码./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ # other转载 2020-07-14 17:31:17 · 349 阅读 · 0 评论 -
Spark命令笔录(2)-spark-submit
注意 任务jar包如果采用集群模式cluster则需要在集群所有机器上都上传任务jar包spark-submit \--class com.cloudera.datascience.geotime.RunGeoTime \--master spark://192.168.146.100:6066 \--deploy-mode cluster \ --executor-memory 1G \--executor-cores 3 \--name "taxiGeoSpace1" \/home/fg原创 2020-07-14 14:48:52 · 206 阅读 · 0 评论 -
Spark引擎架构图解
https://www.zhihu.com/question/353387716/answer/882177429打个比喻:有个年轻人,他参加了蓝翔烹饪学校的课程,立志成为一名厨师。毕业后,他开了一家小餐馆。在他看来,他每天的任务就是早上把食材准备好,放在厨房的一个冰箱里,他开工时,按照客户的点单,从冰箱取出相应食材进行烹饪。这种日子也挺惬意,厨师度过了开店前六个月安稳的小日子。有一天,顾客A对他说:你的菜很棒,我想请你为我们工厂提供工作餐,你看可以吗?厨师立马就答应下来了。但是他坐下来一想,可能要准备原创 2020-07-13 10:02:28 · 385 阅读 · 0 评论 -
实践大数据所需的量及的数据集和案例
标题GIS+=地理信息+大数据——新浪微博签到POI数据下载(880W)https://github.com/lzxue/WeiboDataSharehttp://www.voidcn.com/article/p-sooviuxj-hh.htmlkaggle纽约出租车数据分析https://www.kaggle.com/karelrv/nyct-from-a-to-z-with-xgboost-tutorial/outputhttps://www.kaggle.com/c/nyc-taxi-tr原创 2020-07-10 14:30:02 · 562 阅读 · 0 评论 -
Spark(cloudera manager)命令笔录(1)-spark-shell
Spark基础概念方法讲解 1. 代码+案例详解:使用Spark处理大数据最全指南(上) https://www.jianshu.com/p/826c16298ca6 2. 代码+案例详解:使用Spark处理大数据最全指南(下) https://zhuanlan.zhihu.com/p/95022557Spark 部署启动参看 https://github.com/heibaiying/BigData-NotesSpark之本地模式与集群模式https://blog.csdn.原创 2020-07-07 17:33:04 · 424 阅读 · 0 评论
分享