大数据
GodXuzzZ
这个作者很懒,什么都没留下…
展开
-
es性能优化
目录es性能优化写入性能优化增加refresh的时间间隔默认1s就会触发一次Refresh,然后Refresh会把内存中的数据刷新到操作系统的文件缓存系统中(buffer ——> OS cache)。每次索引的refresh会产生一个新的segment段,这会导致频繁的segment merge行为。一般在查询实时性要求不高的场景下可改为30s,甚至是“-1”(关闭refresh)。入库完之后修改回默认值是1s即可,形如:refresh参数设置Curl -XPUT "localhost:9原创 2020-12-04 10:56:02 · 1163 阅读 · 0 评论 -
拉链表案例简介
user_hisuseridusernamephonestart_dateend_date1001zhangsan130666666662020-09-019999-12-311002lisi130555555552020-09-019999-12-311003wangwu130777777772020-09-019999-12-31user_updateuseridusernamephone1001zhangs原创 2020-09-14 13:43:25 · 432 阅读 · 0 评论 -
答题日志练习
1.hdfs dfs -mkdir -p /app/data/examhdfs dfs -put /root/data/answer_question.log /app/data/exam2.def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("exam").setMaster("local[*]") val sc = new SparkContext(conf) val rdd...原创 2020-09-02 18:41:42 · 343 阅读 · 0 评论 -
HBase基础加进阶
HBase安装见hbase文章HBase架构原理HBase结构HBase架构比较复杂,也比较难理解HBase是Master/slaves架构,从安装环境能看出,HBase分布式环境安装成功后,有一个HMaster,多个HResgionServer进程,HBase架构如图:HBase是由Client、Zookeeper、HMaster、HRegionServer、HDFS等组件组成,组件的相关功能:1、Client:客户端,可以是HBase Shell、Java API客户端、RestAPI等原创 2020-08-26 08:30:33 · 262 阅读 · 0 评论 -
Redis数据库
目录Redis安装Redis数据类型String(字符串)hash(哈希)List(列表)Set(集合)java连接Redisspark连接RedisPython连接RedisRedis安装安装redisredis是基于c语言编译的wget http://download.redis.io/releases/redis-4.0.6.tar.gztar -zxf redis-4.0.6.tar.gzyum install -y gcccd redis-4.0.6make MALLOC=libc原创 2020-08-25 19:28:09 · 119 阅读 · 0 评论 -
Python环境搭建及Python数据类型
导入Pandas与Numpyimport numpy as npimport pandas as pds = pd.Series([1,2,3,np.nan,5,6,7])原创 2020-08-21 17:44:03 · 197 阅读 · 0 评论 -
hive表格概念
hivehive概念hive的优势和特点数据库和数据仓库区别安装zookeeper安装hive修改mysql登录密码数据库????数据表hive建表语句????hive和MapReducehive元数据管理hive元数据结构数据类型----复杂数据类型数据分层hive概念基于hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)Hive让更多的人使用HadoopHive成为Apache顶级项目Hive始于2007年原创 2020-06-09 20:24:54 · 507 阅读 · 0 评论 -
hadoop读取两张表的案例
实现读取两张表到同一个文件夹里,在d盘下创建两张表,例如我创建了一张abc.txt的表和ccc.csv的表,放在同一个文件夹source1下,csv文件默认用“,”隔开。表中数据类型如下。两张表连接排序展示WritableComparable继承自Writable和java.lang.Comparable接口,是一个Writable也是一个Comparable,也就是说,既可以序列化,也可以比较!再看看它的实现类,发现BooleanWritable, BytesWritable, ByteWrit原创 2020-06-08 14:24:30 · 209 阅读 · 0 评论 -
mapreduce实现wordcount
mapreduce实现wordcount文件分割 splitting小区分词 map小分区聚合 combine数据迁移,拉数据 shuffle总计 reduce步骤首先,把一篇文章分开成为很多片,给分片标号1,2,3号,分别对3片进行分词,Map实现,按照每个英文单词进行拆分,每出现一个就标个1,不管是否重复,combine进行小分片聚合,把重复的英文单词出现的次数聚合到一起,每个片内不再有重复的英文单词,但是1,2,3之间会有重复单词,shuffle对所有分片的单词进行统计,把重复的放在原创 2020-06-04 17:17:58 · 258 阅读 · 0 评论 -
windows系统安装hadoop
windows系统安装hadoop配置环境变量首先先把hadoop安装包放在指定的目录下,解压之后配置环境变量右键点击此电脑,选择属性,选择高级系统设置,点击环境变量,点击新建,然后变量名写上HADOOP_HOME,地址栏里填hadoop安装的路径,编辑Path路径,新建一条%HADOOP_HOME%\bin,配置完成之后配置hadoop.dll和winutils.exe找到对应hadoop版本的winutils.exe和hadoop.dll文件放进hadoop文件里bin目录里原创 2020-06-04 16:49:40 · 289 阅读 · 0 评论 -
hdfs上传和下载文件
static FileSystem fs; static { try { // 打开文件通道,uri里面是虚拟机的地址 // fs为对hdfs文件进行操作的对象 fs = FileSystem.get(new URI("hdfs://192.168.56.100:9000"),new Configuration()); } catch (IOException e) {原创 2020-06-04 13:58:30 · 776 阅读 · 0 评论 -
hdfs集群吞吐量测试
-hdfs写性能测试hadoop jar /opt/soft/hadoop260/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-cdh5.14.2-tests.client-jobclient-2.6.0-cdh5.14.2-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128M-hdfs读性能测试hadoop jar /opt/soft/hadoop260/share原创 2020-06-04 12:13:55 · 409 阅读 · 0 评论 -
hadoop概念特征。
Hadoop大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征:4V特征:Volume(大数据量):90%的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高Variety(多样化):数据种类和来源多样化结构化数据、半结构化数据、非结构化数据Value(价值密度低):需要挖掘数据价值固有特征:时效性不可变性分布式计算分布式计算将较大的数据分成小的部分进行处理传统分布式计算 新的分布式计算-Hadoop计算方式 将原创 2020-06-01 20:23:33 · 450 阅读 · 0 评论 -
模拟elk
模拟事件信息以下是打胖包的配置信息,pack项目里的pom<build> <finalName>mylogpackexamxu</finalName> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version>原创 2020-06-01 16:05:02 · 147 阅读 · 0 评论 -
linux命令整理
设置全局环境变量:vi /etc/profileexport JAVA_HOME = /opt/soft/jdk180 export CLASSPATH = .:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar: $JAVA_HOME/lib/tools.jar export PATH = $PATH:$JAVA_HOME/bin export MAVEN_HOME = /opt/soft/maven361 export PATH = $原创 2020-05-14 02:41:25 · 153 阅读 · 0 评论 -
linux配置
linux配置1、设置主机名hostnamectl set-hostname xxx2、修改主机名vi /etc/hostnamexxx3、网络配置vi /etc/sysconfig/network-scripts/ifcfg-enp0s34、修改配置BOOTPROTO=staticONBOOT=yesIPADDR=192.168.56.xxx5、保存配置首先使用esc(键退出)->:(符号输入)->wq(保存退出)6、重启网络systemctl restart n原创 2020-05-14 00:49:38 · 269 阅读 · 0 评论 -
正则表达式简述
\ 将下一个字符标记为一个特殊字符,或一个原义字符、或一个八进制字符,例如:‘n’匹配“n”,‘\n’匹配“n”,‘\n’匹配一个换行符。序列‘\’匹配“\”而‘(’则匹配“(”。^ 字符串开始位置$ 字符串结束位置* 前面的子表达式零次或多次,等价于{0,}+ 前面的子表达式一次或多次,等价于{1,}? 前面的子表达式零次或一次,等价于{0,1}{n} n是一个非负整数,匹配确定的n次{n,} 至少匹配n次{n,m} 最少匹配n次,最多匹配m次• 汉字:1{0,}$• 英文和数字:原创 2020-05-14 00:39:18 · 288 阅读 · 0 评论