大数据
各类起步文章
魂落忘川犹在川
无端坠入红尘梦,惹却三千烦恼丝。
展开
-
hive where条件字段丢失问题
问题我们执行屏蔽掉有字符的字段,但是下面这种执行方式会把空的过滤掉-- name 为空的会丢失select * from tmp.name_sex_201201 where name not regexp '本人|[*]' 解决方案select * from tmp.name_sex_201201 where nvl(name,'') not regexp '本人|[*]' ...原创 2021-02-09 15:34:43 · 275 阅读 · 0 评论 -
hbase中的Rowkey设计原则
Rowkey长度原则Rowkey是一个二进制码流,Rowkey的长度被很多开发者建议说设计在10~100个字节,不过建议是越短越好,不要超过16个字节。原因如下:(1) 数据的持久化文件HFile中是按照KeyValue存储的,如果Rowkey过长比如100个字节,1000万列数据光Rowkey就要占用100*1000万=10亿个字节,将近1G数据,这会极大影响HFile的存储效率;(2...原创 2018-12-03 21:32:29 · 505 阅读 · 1 评论 -
安装oozie是报错问题
安装oozie时执行下面语句连接数据库时报错先确保mysql里有数据库ooziebin/oozie-setup.sh db create -run -sqlfile oozie.sql报错java.lang.Exception: Could not connect to the database: java.sql.SQLException: Access denied for user...原创 2018-12-14 11:45:26 · 1192 阅读 · 0 评论 -
spring框架和java自带两种MD5加密方式
在Spring框架下的MD5加密我们先导入一个Maven的依赖<!-- https://mvnrepository.com/artifact/org.springframework/spring-core --><dependency> <groupId>org.springframework</groupId> <art...原创 2018-12-15 09:49:56 · 8529 阅读 · 0 评论 -
关于安装zeppelin工具集成mysql的几个问题的解决
1.安装时要导入mysql的驱动cp -a /home/hadoop/tools/mysql-connector-java.5.1.31 /home/hadoop/install/zeppelin/interpreter/jdbc/2.在网页配置mysql时有四个地方要写3.在填写mysql的驱动时有两种写法1.全路径/home/hadoop/install/zeppelin/i...原创 2018-12-20 18:50:08 · 449 阅读 · 0 评论 -
启动idea桌面每次会自动创建3个log文件问题的解决
之前下载的idea版本太低不满足项目的要求,又下载了个最新版本,但是每次启动在桌面上会跑出来3 个文件soapui.logsoapui-errors.logglobal-groovy.log看着很是烦人删了的话,在开idea又会自动创建后来在产找许多资料终于找到了解决方案先打开file找到setting在搜索框里输入soapui,去掉对号即可再重启idea就没有烦人的多余文...原创 2018-12-15 13:13:40 · 5231 阅读 · 1 评论 -
web页面设计的几个案例
1、会在web页面来回飞行的挂件代码:<marquee direction="left" scrolldelay="90" scrollamount="6" behavior="scroll" loop="0" style="position:absolute;" id="Marquee1"> <span style=原创 2018-12-15 21:40:53 · 12494 阅读 · 0 评论 -
什么是Redis及其适用场景
什么是Redis?Redis全称(Remote Dictionary Server);Redis本质上是一个Key-Value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过 10万次读写操作,是已知性能最快的Key-Value DB。Redis的出色之处不仅仅是性能...原创 2018-12-03 21:18:06 · 1104 阅读 · 0 评论 -
hive和HBase的比较
Hive1、数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。2、用于数据分析、清洗Hive 适用于离线的数据分析和清洗,延迟较高。3、基于HDFS,MapReduceHive 存储的数据依旧在DataNode 上,编写的 HQL 语句终将是转换为MapReduce 代码执行。HBase1、数据库...原创 2018-12-03 20:52:42 · 263 阅读 · 0 评论 -
MapReduce实现倒排索引
倒排索引这个名字让人很容易误解成A-Z,倒排成Z-A;但实际上缺不是这样的。一般我们是根据问文件来确定文件内容,而倒排索引是指通过文件内容来得到文档的信息,也就是根据一些单词判断他在哪个文件中。知道了这一点下面就好做了:准备一些元数据下面我们要进行两次MapReduce处理第一次package com.invalid;import java.io.IOException;im...原创 2018-12-03 20:28:56 · 586 阅读 · 0 评论 -
使用ntp实现集群一分钟同步时间
工欲善其事,必先利其器装工具sudo yum -y install ntp改配置sudo vi /etc/ntp.conf修改,放开注释restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap注释掉下面4个server 0.centos.pool.ntp.org iburstserver 1.centos.pool.ntp...原创 2018-12-08 21:49:21 · 458 阅读 · 0 评论 -
flume实现监控文件,并将文件内容传入kafka的,kafka在控制台实现消费
等flume监控端口写完在写原创 2018-12-08 17:44:04 · 1137 阅读 · 0 评论 -
idea工具里运行MapReduce报权限问题的错误
问题描述:程序在eclipse正常运行,在idea里不能运行报错信息java.lang.NoSuchFieldError: workaroundNonThreadSafePasswdCalls at org.apache.hadoop.io.nativeio.NativeIO.initNative(Native Method) at org.apache.hadoop.io.nativei...原创 2018-12-08 13:10:13 · 1283 阅读 · 0 评论 -
用一个MapReduce输出多个key的分区文件
先看一下要处理的数据类型19392963501,17816115082,2018-09-18 16:19:44,143114081946321,13094566759,2018-05-23 09:34:27,061013415701165,18939575060,2018-11-23 21:33:23,103115590483587,16303009156,2018-08-02 07:3...原创 2018-12-08 10:36:36 · 1342 阅读 · 1 评论 -
flume实现监控端口和文件教程
要实现flume的监控首先要了解flume的运行原理如上图它有一个管道channel前面的source就是要监控的文件或端口,而sink 则是监控到的数据传输的位置。而且flume的传输单位是一Event为单位,以事件形式将数据从源头传送到目标位置。下面来说一下具体实现方法解压然后修改配置文件修改flume-env.sh里的Java路径export JAVA_HOME = /ho...原创 2018-12-07 23:04:20 · 923 阅读 · 0 评论 -
简单实现kafka数据写入hbase
测试数据格式19392963501,17816115082,2018-09-18 16:19:44,143119392963501,17816115082,2018-09-18 16:19:44,143114081946321,13094566759,2018-05-23 09:34:27,061013415701165,18939575060,2018-11-23 21:33:23,1...原创 2018-12-07 21:50:45 · 3563 阅读 · 0 评论 -
用Echarts图表动态加载mysql数据做成饼图pie
原博客地址https://blog.csdn.net/m0_37116405/article/details/55095929转载 2018-12-26 19:07:54 · 1863 阅读 · 0 评论 -
hivesql常用的几个函数
1、取字段a与b的商,结果保留两位小数round(字段a/字段b,2)2、将为null的字段变成0nvl(字段c,0)3、用于统计窗口内往上第n行值参数1为列名,参数2为往上第n行(可选,默认为1),参数3为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LAG(col,n,DEFAULT)与LAG相反的是LEAD此时n表示向下n行LAG(col,n,DEFA...原创 2018-12-26 19:31:51 · 962 阅读 · 0 评论 -
自己用安装包安装MongoDB的启停看状态脚本
之前下载了一个MongoDB–4.0版本的,安装完不能像其他人一样使用service mongod start|status|stop脚本开始在网上找了一大堆的脚本,但是都不能用,尤其是看状态模块失效。于是自己动手写了一个在/etc/init.d文件夹下新建文件mongod#!/bin/sh# ### BEGIN INIT INFO # Short-Description: mong...原创 2019-01-22 17:53:26 · 159 阅读 · 0 评论 -
linux下MongoDB的安装以及windows下Robo 3T 远程连接MongoDB
今天在使用MongoDB时远程连接是出现了一些问题下载MongoDB的安装包,传到linux系统目录下,解压tar -zxvf mongodb-linux-x86_64-4.0.5.tgz -C /usr/local创建数据库和log日志文件地址mkdir -p /data/mongodb_datamkdir -p /data/mongodb_log在安装目录下启动bin/mon...原创 2019-01-21 20:51:04 · 1445 阅读 · 0 评论 -
python连接kafka并消费数据
连接kafka服务端查看topic在idea里导入模块pykafka编写代码# 导入安装包from pykafka import KafkaClient# 设置客户端的连接信息client = KafkaClient(hosts="hadoop01:9092,hadoop02:9092,hadoop03:9092")# 打印所有的topicprint(client.topics)...原创 2019-01-19 21:24:21 · 5055 阅读 · 0 评论 -
记一次Python算法案例: 如果 a+b+c=1000,且 a²+b²=c²(a,b,c为自然数),如何求出所有a、b、c可能的组合?
题目需求: 如果 a+b+c=1000,且 a²+b²=c²(a,b,c为自然数),如何求出所有a、b、c可能的组合?原创 2019-01-02 19:54:12 · 4131 阅读 · 0 评论 -
Python安装matplotlib作图步骤,以及出现的问题解决方案
先在idea中建一个python项目点左上角File—>Project Structure再点击SDKs,看右边的package里有没有matplotlib包若没有点最右边的加号,在弹框里输入matplotlib找需要的版本下载完成会出现下图字样关闭弹窗,在第一个页面点OK,再进入查看包已经导入了测试是否可用建一个python文件输入from matplotlib im...原创 2018-12-29 17:17:03 · 1139 阅读 · 0 评论 -
python实现加减乘除并排除异常输入,打印乘法表
python实现加减乘除并排除异常输入while True: try: sushi = input("输入算式") print(eval(sushi)) # 退出系统 if sushi == "exit": break except Exception as result: p...原创 2018-12-29 16:40:16 · 403 阅读 · 0 评论 -
python读取文件的几种方式以及数据的处理
纯数字型文件的读取:使用numpy模块文件名numbers.csv数据形式如下读取的代码:import numpy as npdata = np.loadtxt(&quot;.numbers.csv&quot;, delimiter=&quot;,&quot;)print(data)结果如下:但是这样并不好阅读,所以修改一下import numpy as npdata = np.loadtxt(&原创 2019-01-03 19:56:17 · 5407 阅读 · 0 评论 -
连接mysql数据库进行web界面展示的填坑之路
在这里使用idea,2018年企业版的先建立web项目,再写入建立数据库连接的配置文件在resources下新建文件dbconfig.propertiesjdbc.user=rootjdbc.password=rootjdbc.jdbcUrl=jdbc:mysql://localhost:3306/calllog?useUnicode=true&characterEncod...原创 2018-12-22 22:52:47 · 1279 阅读 · 0 评论 -
使用python做一个简单的名片管理系统-------字典文件方式实现
前面写了一个用字符串拼接实现, 字符串拼接方式.现在带大家来看一下字典文件形式实现这个系统"""字典实现名片系统"""print("*" * 50)print("欢迎使用【名片管理系统】V1.0")print("")print("1.新建名片&a原创 2018-12-27 21:18:25 · 607 阅读 · 0 评论 -
python跨类调用方法,出现未被调用但执行在控制台的问题解决
在Demo01文件夹下新建tests.py文件,写入下面两个方法def hehe(): print("小机灵鬼")def haha(): print("大机灵鬼")在建一个test01.py文件开始调用方法import Demo01.tests as nidayenidaye.hehe()此时调用时会发现控制台出现了一堆我没有调用的类的代码被执行在找了很久才...原创 2018-12-27 19:13:02 · 1207 阅读 · 0 评论 -
使用python做一个简单的登录注册系统
最近学习重温python,随手谢了几个小案例,python版本是3.x的话不多说,上代码'''使用列表实现登录注册'''print("*" * 50)print("欢迎来到该系统")name_list = []user = ""while(True): num = input("请输入你要选择的操作的数字:1 登录 2 注册 0 退出系统原创 2018-12-27 17:48:56 · 7215 阅读 · 2 评论 -
使用python做一个简单的名片管理系统-------字符串拼接方式实现
使用了2018.3企业版idea和3.6版本的python完成需求:代码实现print("*" * 50)print("欢迎使用【名片管理系统】V1.0")print("")print("1.新建名片")print("2.显示全部名片")print("3.查询名片&qu原创 2018-12-27 17:45:59 · 750 阅读 · 0 评论 -
使用MapReduce读取Hbase数据到本地磁盘
本文主要讲述读取hbase数据到本地磁盘,且仅一个分区文件,若想一次输出多个分区文件,参考本文上篇文章:https://blog.csdn.net/weixin_43345864/article/details/84889874代码如下:注意Hadoop版本问题:pom.xml如下&lt;build&gt; &lt;plugins&gt; &lt;...原创 2018-12-10 21:11:24 · 910 阅读 · 0 评论 -
python之循环中文乱码问题的解决
先来看一段简单的Python代码# -- coding:utf-8 --name = '溪云初起日沉阁'for temp in name : print temp运行后我们可以发现它出现了中文乱码问题但是我们已经指定了utf-8他怎么还会乱码呢?后来找了资料才发现Python内部使用的是unicode而我们使用时可以通过decode将其他编码转成Unicode,而enc...原创 2018-12-26 21:42:27 · 525 阅读 · 1 评论 -
大数据技术随笔
先来说说大数据和云计算云计算在美国与技术研究院中的定义是:指一种按使用量付费的模式,这种模式提供可用的,便携的,按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速的提供,只需要投入极少的管理工作,或与服务供应商进行很少的交互。资源共享池里资源包括 网络,服务器,存储,应用软件,服务等。大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理...原创 2018-12-07 21:33:22 · 169 阅读 · 0 评论 -
StringBuffer和StringBuilder和String后追加元素的区别
StringBuffer和StringBuilder后追加元素都有一个append方法而且可以连加的格式StringBuffer stringBuffer=new StringBuffer()stringBuilder stringBuffer=new stringBuilder()String string = new String()stringBuffer.append("abc")...原创 2018-11-28 20:31:52 · 1794 阅读 · 0 评论 -
利用Hadoop自带脚本编写一个一次启动集群的所有进程的脚本
准备工作,集群机器之间相互ssh免密登录集群脚本注意脚本的权限和文件格式(若不会可参考本人以前的脚本问题的博客)开启集群 start-jiqun#!/usr/bin/env bashecho "开启hdfs"ssh hadoop01 "/home/hadoop/install/hadoop-2.5.0-cdh5.3.6/sbin/start-dfs.sh"echo "开启历史服务器"...原创 2018-11-28 19:46:07 · 893 阅读 · 0 评论 -
Hadoop集群之shell -----脚本xcall,和同步脚本xsync(一)
xcall脚本#!/bin/bashparams=$@i=1for (( i=1 ; i &lt;= 3 ; i = $i + 1 )) ; do echo ============= hadoop0$i $params ============= ssh hadoop0$i "$params"done同步脚本#!/bin/bash#1 获取输入参数个数,如果没有...原创 2018-11-17 21:12:33 · 434 阅读 · 0 评论 -
kafka实现wordcount并实现累加操作
先在kafka输入下列命令充当生产者 ./bin/kafka-console-producer.sh --broker-list 192.168.147.133:9092,192.168.147.134:9092,192.168.147.135:9092 --topic test034下列代码当消费者package day14import org.apache.spark.stre...原创 2018-11-17 20:50:03 · 511 阅读 · 0 评论 -
简易版java连接mysql连接池
话不多说,亲测成功代码如下:package day16;import java.sql.Connection;import java.sql.DriverManager;import java.util.LinkedList;/** * 简易版连接池 */public class ConnectionPool { //静态Connection队列 privat...原创 2018-11-17 20:41:13 · 986 阅读 · 0 评论 -
linux大部分压缩与解压缩命令
linux压缩与解压缩命令 后缀为gz 压缩: gzip 文件名称 gzip -r 文件夹名称 将文件夹中的文件进行压缩 解压: 解压1:gunzip FileName.gz 解压2:gzip -d FileName.gz 后缀为tartar命令 解包:tar zxvf FileName.tar...原创 2018-11-17 20:28:51 · 164 阅读 · 1 评论 -
大数据一些基本常识
大数据基本的工具作用java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,spark cor...原创 2018-11-17 16:28:39 · 281 阅读 · 0 评论