qq_37001101-CSDN博客

原创 clickhouse设置远程连接

vi /etc/clickhouse-server/config.xml把注释掉的<listen_host>::</listen_host>取消注释，然后重启服务：此时9000端口和namenode冲突修改tcp端口gray注意改配置文件内tcp默认端口为9000，可能会与namenode端口发生冲突，修改查看并杀掉进程ps -ef | grep clickhouse-server启动服务nohup sudo -u clickhouse clickh.

2021-12-24 18:04:47 2117

原创使用DBeaver连接Hive数据仓库

Hive的数据库客户端界面工具DBeaver进行操作hive。前提：1.hadoop分布式或者伪分布已经安装好2.hive已经安装好3.hive元数据存放在MySQL中4.DBeaver客户端工具准备：1.启动Hadoop：sbin/start-dfs.sh2.启动MySQL，本身就是开机自启动service mysql start3.启动Hive Metastore服务hive --service metastore 或者 nohup hive --servic..

2021-12-24 15:03:01 2522

原创关于dolphinscheduler2.0.0执行shell任务报租户不存在错误，以及选择正确租户后，租户在程序的执行中无读写权限问题解决

关于dolphinscheduler2.0.0执行shell任务报租户不存在错误，以及选择正确租户后，租户在程序的执行中无读写权限问题解决首先针对建立租户的时候，租户名称一定是服务器已经有的用户，现阶段建立服务器不存在的用户时候执行任务会报租户不存在，还没有深入研究源码。其次是执行shell代码，出现Permission denied错误，出现这个问题的原因是普通租户没有执行dolphinscheduler用户的文件的权限dolphinscheduler用户创建如下执行脚本/tmp/dol.

2021-12-01 11:02:17 2476

转载 azkaban安装部署

Azkaban介绍+安装部署+实战案例Azkaban介绍什么是azkaban？1、工作流的作业调度系统2、通过k、v指令写法描述工作流节点3、可以通过web界面去管理工作流Azkaban安装部署2.3.1 准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持mysql,需安装my...

2021-04-22 10:40:10 279

原创 oracle sql Developer连接hive [HiveJDBCDriver](500151) Error setting/closing session

oracle sql Developer连接hive报错如下：[Cloudera][HiveJDBCDriver](500151) Error setting/closing session: [Cloudera][HiveJDBCDriver](500594) Error calling OpenSession API call. Error code from server: 0. Error message from server:经过不断努力终于确认问题：原因：hiveserver2增.

2021-04-21 16:24:20 1084

转载索引列失效场景

虽然你这列上建了索引，查询条件也是索引列，但最终执行计划没有走它的索引。下面是引起这种问题的几个关键点。列与列对比某个表中，有两列（id和c_id）都建了单独索引，下面这种查询条件不会走索引select*fromtestwhereid=c_id;这种情况会被认为还不如走全表扫描。存在NULL值条件我们在设计数据库表时，应该尽力避免NULL值出现，如果非要不可避免的要出现NULL值，也要给一个DEFAULT值，数值型可以给0、-1之类的，字符串有时候给空串有问题，就给一...

2021-04-09 18:01:21 85

原创 phoenix jdbc连接 upsert select异常解决

场景：通过jdbc连接到phoenix执行 upsert into table select 操作报一下异常：phoenix upsert ERROR:MutationState size is bigger than maximum allowed number of bytes网上的解决方法：https://blog.csdn.net/u012551524/article/details/81773851试了一下还是解决不了问题，可能是问题出现的一种原因，后来仔细看了一下以下官网说明如下

2021-03-19 14:25:50 662

原创 idea sparksql操作hive遇到的坑CoarseGrainedSchedulerBackend$DriverEndpoint: Asked to remove non-existent ex

sparksql操作hive遇到的坑第一次写sparksql项目想用sparksql操作hive查询数据就找到了百度代码做参考【idea工具开发】代码如下：import org.apache.spark.sql.SparkSessionobject aaa { def main(args: Array[String]): Unit = { //设置HADOOP_USER_NAME，否则会有权限问题 System.setProperty("HADOOP_USER_NAME",...

2021-02-26 16:45:30 767 1

原创 pycharm无法识别已安装模块问题解决

2021-02-09 17:54:13 2029

原创 scala中sortBy与sortWith区别

（1）Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序。（2）sortWith可以通过制定规则进行升降序排序。 val mapvalues2: RDD[(String, List[(String, Int)])] = groupbykey.mapValues(x=>x.toList.sortWith(_._2>_._2).take(3)) ...

2020-06-29 10:34:30 1512

转载关于python的元组类型（tuple）的特点

python 元组--元组到底可不可以被修改2.元组--tuple （）/（1，）2.1创建和访问一个元组如果创建一个空元组，直接使用小括号即可；如果要创建的元组中只有一个元素，要在它的后面加上一个逗号‘，’。 >>> temp = () >>> type(temp) <class 'tuple'> ...

2019-08-29 16:02:43 1095

原创共享单车项目、mongodb集群

需求分析摩拜单车的重点是物联网大数据车投放在什么地方，要根据数据来进行支撑，根据历史数据（骑行记录）通过共享单车的骑行数据可以分析出个性城市成都休闲之都：骑行的地方多为娱乐场所上海敬业之城：共享单车作为通勤的辅助手段北京早起之城：早高峰的出现早于其他城市深圳不夜之城：夜晚骑行度高于其他城市年龄段骑行分析同时共享单车抢占黑摩的的市场深夜城市骑行热力图分析骑行...

2019-02-16 21:06:21 1214

原创数据存储方式总结

关系型数据库：Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL非关系型数据库：NoSql、Cloudant、MongoDb、redis、HBase 还有我们学过的：hdfs、hive数据仓库两种数据库之间的区别：关系型数据库关系型数据库的特性1、关系型数据库，是指采用了关系模型来组...

2019-01-10 15:33:12 2251

原创 SparkStreaming讲解与使用

一、SparkStreaming概述 Spark内置对象： sparkconf: SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数。 SparkContext: **SparkContext为Spark的主要入口点 ,SparkContext用于连接Spark集群、创建RDD、累加器（ac...

2019-01-05 16:11:05 511

原创 java线程的交替执行与谦让执行

1.两个线程的交替执行 package myThread;public class alternateThread { Object o=new Object(); Boolean f=true; class Thread1 extends Thread{ @Override public void run() { ...

2019-01-02 16:55:38 505

原创 DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决

DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。Spark DataFrame提供了registerTempTable这样的接口，可以将数据对象存成临时表，便于后续的各种查询操作等。如select, join等。以前都是直接从数据中读...

2018-12-31 04:11:57 1466

转载 centos6.8修改IP为静态static后开机IP地址还会变的解决办法

2018-12-30 19:14:17 835

原创 elasticSearch的安装与使用

__________________________________________________________________________上课流程：学生知识点分享上堂课知识点回顾（采取默写的形式）上堂课作业（项目）讲授 2018-12-24-【车流量监控项目】\5_作业\①本堂课\12-1_9班项目完成情况.xlsx ...

2018-12-27 20:45:44 575

转载 Hadoop元数据存储、加载、恢复

Hadoop元数据存储、加载、恢复1. 元数据加载为了保证交互速度，HDFS文件系统的metadata是被load到namenode机器的内存中的。并会将内存中的这些数据保存到磁盘进行持久化存储，但对块的位置信息不进行持久化存储，在DataNode向namenode进行注册时动态加载。当NameNode启动时，它从硬盘中读取Editlog和FsImage。将所有Editlog中的事...

2018-12-22 23:40:24 315

原创 radis数据库的简单的使用

常用命令就DB来说，Redis成绩已经很惊人了，且不说memcachedb和tokyocabinet之流，就说原版的memcached，速度似乎也只能达到这个级别。Redis根本是使用内存存储，持久化的关键是这三条指令：SAVE BGSAVE LASTSAVE …常见可执行文件：redis-benchmark Redis性能测试工具redis-check-aof 检查aof日志工...

2018-12-22 10:13:51 437

原创 redis的安装

安装：由于redis是c语言写的，所以需要先安装c的支持，然后编译安装[root@hadoop01 ~]# yum -y install cpp binutils glibc glibc-kernheaders glibc-common glibc-devel gcc make gcc-c++ libstdc++-devel tcl[root@hadoop01 ~]#...

2018-12-21 21:32:59 110

原创关于hive 创建新表，两个表join 两个表中都有相同字段的处理

此时select*fromAleft joinBonA.paper_id=B.paper_id会报错：FAILED: SemanticException [Error 10036]: Duplicate column name: paper_id解决：selectA.paper_id as paper_id1B.paper_id as pap...

2018-12-19 17:08:11 6720 2

原创关于hive的分段统计的解析例如求18-24、25-30年龄段的计数的统计

解决办法就是将比如是19、20、21、22、23岁的数据加一个分段表及，比如说将18-24岁的都标记为“18_24”,将25-30岁的都标记为“25_30”,这样就很好解决问题了加条件语句为case when age>=0 and age<=18 then "0_18"when age>=19 and age<=24 then "19_24"when age...

2018-12-19 14:20:02 7328

原创 sqoop的使用

mysql数据导入hive(创建表同时导入指定数据库)bin/sqoop import \--connect jdbc:mysql://had01:3306/studentexam \--username root \--password root \--table category \--num-mappers 1 \--hive-import \--hive-database...

2018-12-19 13:56:30 99

原创 azkabin实现每天向hive分区表中加载数据——每天自动生成一个分区

第一步：创建分区表create database hive_autoload;create table hive_autoload.student2(uid string,gender string,fuid string)partitioned by (dt string)row format delimited fields terminated by "\t";第二步创...

2018-12-18 20:45:13 704

原创 azkabin的安装与调试

Git上下载源码：地址：https://github.com/azkaban/azkaban 解压源码到/home：unzip /home/azkaban-master.zip -d /home/ 编译源码：安装：在安装咯hadoop、hive、sqoop等的机子上安装，好测试是否okay。先安装azkban web server：解压azkaban...

2018-12-17 16:12:35 310

原创 group by 与partition by 的效果展示，希望对大家有帮助

student.uid student.xi student.fuid1 1 11 1 32 1 102 2 111 1 41 2 51 2 62 1 72 1...

2018-12-17 09:32:47 613 1

原创微博粉丝互粉列表统计

微博粉丝互粉统计mapper阶段 import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class microMapper extends M...

2018-12-13 20:37:23 658

原创电信客服分析实现思路

电信项目：一、idea项目构建1、安装jdk并配置环境变量 2、安装maven，解压离线仓库，并设置settings conf目录下的setttings.xml文件复制到离线仓库的m2目录下，并修改mirror标签以及离线仓库路径。设置idea工具的maven选项，涉及到4个地方：work offline,以及3个maven设置吧。注意留意：override选项...

2018-12-12 20:05:35 2023

原创 hadoop——hive视频观看热度，Top N案例（youtube）

数据准备user.txt0.txt字段以及字段名解析 user表字段备注字段类型uploader 上传者用户名 stringvideos 上传视频数 intfriends 朋友数量 int 视频表：字段备注详细描述video id 视频唯一 id 11 位字符串uploader 视频上传者上传视频的用户名 Stringage 视频...

2018-12-11 18:02:22 1652

原创使用二分查找法,查找ip所在的范围对应的code(语言为java\scala\python) java语言来实现

使用二分法实现查找ip所在的范围，并返回对应的idstart_ip end_ip code0.0.0.0 1.0.0.255 10000000001.0.1.0 1.0.3.255 11563501001.0.4.0 1.0.7.255 10360000001.0.8.0 1.0.15.255 1156440100java程序实现行数据实体类package IpRa...

2018-12-11 16:48:25 389

原创关于hbase-site.xml中配置文件进行改动，删除某个属性后出现的错误hbase启动不了

操作分三步：1.进入zkCli.sh------ls /-------rmr hbase2.删除hbase.tmp.dir属性对应的的路径中的文件3.删除hdfs上对应的hbase所有元数据4.删除hbase logs中文件5.重新启动集群解决问题 ...

2018-11-29 15:59:29 639

原创关于本人hbase整合sqoop和hive框架的遇到的那些坑

关于本人hbase整合sqoop和hive框架的遇到的那些坑 hbase: hbase-1.3.1-bin.tar.gzhive:apache-hive-1.2.2-bin.tar.gz要实现的功能：实现创建hive表同时关联到hbase在logs日志查看出现异常信息执行语句： CREATE TABLE hive_hbase_emp_table( key in...

2018-11-26 20:16:18 945

原创 SparkStreaming概述

2018-11-19 13:52:51 214

转载 Hive数据分析实战演练

Hive数据分析实战演练文章来源：企鹅号 - 程序猿的修身养性1、准备工作Hive的底层是基于MapReduce分布式计算和HDFS分布式存储，因此，在使用Hive进行数据操作前，需要先启动Hadoop。如果事先已经搭建好了伪分布式环境的Hadoop，运行命令： start-all.sh，等待Hadoop启动完成即可。使用Hive进行数据分析操作，必然需要安装和配置Hive数...

2018-11-19 11:06:43 796

原创 Hadoop选举以及副本策略

17.Hadoop选举以及副本策略默认是采用投票数大于半数则胜出的逻辑。选举流程简述目前有5台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选择举过程如下：服务器1启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器1的状态一直属于Looking。服务器2启动，给自己投票，同时与之...

2018-11-17 15:58:32 1060

原创 mapReduce共同好友案例(hadoop)

4.mapReduce共同好友案例思路：A: B,CB:A,DC:A,DD:B,C第一步B A -----B是A的朋友C AA BD BA CD CB DC D A: B,C ----A是BC的朋友B:A,DC:A,DD:B,C第二步B:C A ----BC的共同好友AA:D BA:D CB:...

2018-11-17 11:15:32 345

原创 eclipse远程连接hadoop2-5.0运行程序报错org.apache.hadoop.io.nativeio.NativeIO$Windows

eclipse远程连接hadoop2-5.0运行程序报错nativeio：Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z解决方法1设置环境变量 HADOOP_HOM...

2018-11-17 10:38:31 324

原创 Kafka+采集用户信息行为+flume整合（鼠标停留时间）

Kafka+采集用户信息行为+flume（鼠标停留时间）一、Kafka概述与消息系统类似，是消息中间件的一种。能够订阅和发布流式数据，能够以容错的方式存储流式数据，当数据产生时就能够处理生产者:数据产生者消费者:数据使用者中间件:进行数据缓冲采集用户信息行为：用户信息采集：页面上两个按钮、三个模块，当点击按钮的时候会显示点击那个按钮的日志，当...

2018-11-15 23:17:49 767

原创 Flum、Yum、Telnet、光盘挂载装yum(FLUME日志采集)

Flum、Yum、Telnet、光盘挂载装yum 附加：Flum的使用数据处理流程数据源-----存储-----计算------结果展示数据倒入场景：（数据采集webServer---DataServer过程）一次性倒入数据更新频次低（一天、一周）实时性导入（毫秒级别）关于验证码的使用，有第三方接口比如用户点击获取验证码、第三方接口...

2018-11-14 23:20:55 219

java实现两个word文件进行比较

比较两个word内容将不一样的地方标记出来

2021-04-30

ljq01azakaban2.5.0.zip

azkaban-executor-server-2.5.0.tar.gz、azkaban-sql-script-2.5.0.tar.gz、azkaban-web-server-2.5.0.tar.gz、mysql-libs.zip

2021-02-24

Spark学习源码

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2019-01-05

SparkStreaming练习源码

随着大数据的快速发展，业务场景越来越复杂，离线式的批处理框架 MapReduce 已经不能满足业务，大量的场景需要实时的数据处理结果来进行分析，决策。例如实时的用户推荐，在 618 这样的刺激环境下普通历史数据的推荐已经不能满足场景，就需要采集前分钟，甚至式前几秒的数据进行分析。实时计算适用于这种对历史数据依赖不强，短时间内变化较大的数据。用户行为分析，舆情分析，等等不断随环境和时间实时变化的数据都可能用到实时计算。

2019-01-05

scala与spark基础

本资源收集了scala与大数据spark的基础的学习笔记，有兴趣的同学可以下载学习

2019-01-03

redis数据库的练习案例API

本案例包含了redis的string、set、list、sort、hash、sparkstreaming、等操作。实现模拟购物车、爬虫、商品从浏览到下单占比、排名、商品销售排名等实现。

2018-12-27

hive微博运动项目

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2018-12-18

GitHub、git的使用（全）

gitHub是一个面向开源及私有软件项目的托管平台，因为只支持git 作为唯一的版本库格式进行托管，故名gitHub。 gitHub于2008年4月10日正式上线，除了git代码仓库托管及基本的 Web管理界面以外，还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱（报表）、代码片段分享（Gist）等功能。目前，其注册用户已经超过350万，托管版本数量也是非常之多，其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。

2018-12-12

基于hadoop的电信客服数据分析+文档

本项目是基于hadop的对用户通话记录进行分析的大数据项目，统计用户每年或者每个月的通话记录情况，并做结果分析，最后将数据进行可视化。

2018-12-12

SparkStreaming

2018-11-21

hadoop基础知识

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

2018-11-17

基于ssm框架的企业薪资管理系统

ssm框架是当下最流行的web框架，本项目整合了ssm框架，实现财务管理。

2018-11-13

GitHub、git的使用

Git代码托管工具，以及GitHub的使用，包括怎么将Eclipse的程序上传github上

2018-11-13

Echarts可视化工具的使用案例（idea）

Echart可视化工具的简单实用，本文章采用idea开发环境进行案例实施，运用到javaEE、ajax、serverlet技术

2018-11-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人