胡卡卡啦啦-CSDN博客

原创 Hive表创建唯一标识列

需求：在某一张 hive 表中需要有一列去唯一标识某一行，有些类似于MySQL中的自增IDrow_number() SELECT row_number() OVER(ORDER BY RAND()) AS sample_key结果UUID SELECT regexp_replace(reflect("java.util.UUID", "randomUUI...

2019-01-29 14:44:29 11299

原创 Hive进行 insert 复杂类型array struct嵌套的字段

需求：在创建表的时候有一列类型为array&lt;struct:”id”:string,”l”:string&gt;想要自己造数据向表里insert格式应该怎么写呢？建表语句如下：CREATE EXTERNAL TABLE `test.test_imp06`(`exps` array&lt;struct&lt;id:string,l:string&gt;&gt; COMMENT ‘ceshi...

2018-12-25 18:34:55 8643

原创 Hive 调度任务报错FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

前两天创建调度任务的时候是重新创建表语句: insert overwrite tableselect …在集群上跑的时候报了这样的错：Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask...

2018-12-10 19:13:08 28490 8

原创东北大学比赛一些报销流程（仅供参考）

东北大学比赛报销流程以计算机设计大赛为例，今年参加了比赛，得了二等奖，学校给报销路费住宿费。可是谁知道报销路漫漫呀，我们在浑南校区，还要南湖浑南来回跑。记录一下流程，供参考。。。。比赛前期因为要去南京比赛，所以算作出差，首先要填写因公出差审批表，要在计划财经处下载财经处网址，初始用户名密码都为学号。下载后填写，需要找创新创业学院院长盖章。。（也可以补办，我们队就是比赛结束才补办的）...

2018-10-16 20:33:46 2202

原创 Java实现括号是否匹配(给定一串字符串看括号是否成对出现)

可以说是一道算法题，使用栈来解决。。。基本思路如下1、将字符串的每个字符进行遍历2、如果发现是左括号，那么将该字符压入到栈中3、如果是右括号，先去存储好的栈顶找到相应的值4、若栈为空返回false，若匹配，pop该左括号，若不匹配也返回false5、最后看存储栈中的做括号是否都匹配上了，也就是栈最后为空，返回true，否则返回false以下是实现的代码部分package ...

2018-09-02 13:15:22 13845

原创大数据研发面试题总结

面试方向：大数据研发Java部分Java的集合类有哪些？ArrayList和LinkedList的区别ArrayList的动态扩容是怎么实现的HashMap的底层存储结构是什么样的Java多线程的实现方法线程和进程的区别是什么线程的生命周期和生命状态volatile关键字wait和sleep的区别如何保证线程安全的问题，线程安全是什么JVM的结构，每块是什么用处讲一...

2018-07-23 20:36:02 1960

原创 UltraEdit mac版破解方法

UltraEdit是一个功能非常强大的编辑器，尤其喜欢它的列编辑模式，但并不是免费的，通过不断的尝试和查找资料终于把它的破解方式找到了。现在总结一下mac版的破解在官网上下载UltraEdit，然后点击一直安装安装就好了一定要注意自己安装的是哪个版本的！！！！网上有好多只告诉了命令但是没有告诉版本，所有输了也没有起到作用的。下面开始终端输入命令了18.00.0.12破解printf...

2018-07-03 13:22:40 33638 18

原创 Python批量处理文件将多个文件合并

需求：把一个文件夹下的多个csv文件合并成一个文件

2018-06-23 21:04:21 4755 7

原创 SpringBoot实现MySQL数据前端显示

使用springboot框架进行数据库信息的读取并且展示在页面上。Springboot框架相对来说比较简单，直接在pom文件中加入依赖就可以直接使用服务器，不需要再搭建tomcat。定义映射实体类，类中的属性和类型要和数据库表中的字段相对应@Entitypublic class ExceptionOutput { @Id @GeneratedValue(strat...

2018-06-05 16:11:11 16837 5

原创 Storm+HBASE+MySQL 实时读取Kafka信息计算存储

本文是通过Storm将生产出来的数据进行实时的计算统计，整理出来之后将数据写到hbase和mysql数据中，并将结果展示在前端页面上题目要求一、机组运行数据清洗规则 1、运行数据日期不是当日数据 2、运行数据风速为空||=-902||风速在 3～12之外 3、运行数据功率为空||=-902||功率在 -0.5*1500~2*1500之外二、清洗数据后存储HBase 1、正常...

2018-06-05 14:57:30 1938 1

原创 Java处理ISO 8601型字符串与日期间的转换

今天下午遇到了个大坑，整了半天才搞明白。先说一下需求：将”2018-05-14T03:51:50.153” 这种类型的进行格式转换首先了解一下UTC(世界协调时间也就是格林尼治时间，和北京时间差了八个小时)时间格式 ISO 8601 日期-时间格式表示：yyyy-mm-ddThh:mm:ss.fffZ，其中 yyyy = 年，mm = 月，dd = 天，T 表示时间部分的开头，hh = 小时，...

2018-05-17 19:42:57 14554

原创 Kafka实现生产者消费者自定义partition

KafkaAPI实现生产者与消费者自定义Partition，奇数、偶数数据分在不同的Partition.思路创建三个类，包括Consumer、Producer、Partition在Producer端产生消息，Consumer端接收消息，Partition实现分区规则。Producer根据随机函数随机产生十个数据，其中包括奇数和偶数。因为是将奇数和偶数划分到不同的partition当中去，所...

2018-05-14 20:19:41 3631

原创 SparkMLlib随机森林实现pm预测（自定义函数的使用）

本文主要是用SparkMLlib中的一些算法来对PM进行预测，其中涉及了dataframe中对列使用自定义函数的操作，很方便！！任务：读取pm.csv,将含有缺失值的行扔掉（或用均值填充）将数据集分为两部分，0.8比例作为训练集，0.2比例作为测试集（1）使用month,day,hour,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir作为特征列（除去No，year，pm），...

2018-04-17 17:12:18 2499 14

原创 PyCharm 无法 import pandas 程序卡住

问题描述：之前一直用习惯了jupyter notebook ,今天换一下IDE，直接用Pycharm，结果发现在import pandas 的时候，虽然不报错，但是程序无法运行比如这个代码，只能打印出第一句开始读取，之后程序一直运行，但不停止。。。让我很是头大啊。。在网上搜了各种各样的解决方法。设置解释器。。。一系列的都没有问题但是pandas还是不能引入，好了使用暴力解决的方法，...

2018-04-12 21:43:24 9337

原创 Spark文本挖掘机器学习实现

本文主要是通过招聘网站爬取的招聘信息对招聘信息进行分类结合文本相关spark 算法，包括spark中机器学习算法的使用，文本挖掘的一些方法，特征值的转换给定文件的格式①.通过spark相关API将爬取到的数据进行处理，得到结构化的数据表读取json文件并对其中的标点进行过滤 val conf = new SparkConf().setAppName("input")...

2018-04-11 17:56:59 945

原创使用Spark进行排名统计

使用Spark进行简单的数据统计给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作相关的数据文件 1. 年龄段在“18-24”的男性年轻人，最喜欢看哪10部首先读取文件，在用户文件中读取符合条件的年轻人 val conf =new SparkConf().setAppName("read_gz_file...

2018-04-10 10:59:46 4140

原创 Linux常用命令

本文主要介绍的是Linux一些常用的命令，刚开始学Linux的童靴可以从这里开始练习哦！利用pwd命令显示当前目录 ls命令 ls -a命令的区别 man命令查看ls的手册在根目录下创建test目录cd / mkdir test在test目录下创建user1/user2目录结构 cd test mkdir -p user1/user2在某个目录...

2018-04-07 18:14:47 722

原创 python pandas包操作以及dataframe

python pandas 以及 dataframe今天来总结一下python中pandas包的一些使用方法，还有一些对文件的一些操作。都是一些比较简单的操作。同样是以题来进行说明首先引入包 import pandas as pd import numpy as np（1）通过pandas包将数据flight.csv读取成dataframe，命名为df，然后进行操作。读取cs...

2018-03-31 19:57:29 1625

原创 python numpy包以及数组的一些操作

python中numpy包的简单使用今天整理一下python中numpy包的一些简单的使用方法。当然以题为例了。。jupyter notebook为编译环境。以下是一些小题目首先引入包from numpy import * import numpy as np（1）用0~19的数字生成(4,5)的数组命名为a,查看a的维度；查看a的轴的个数；查看a元素的总个数; 查看...

2018-03-29 14:23:02 1427

原创 Java IO类操作

Java IO 详解IO简单来说就是input和output，输入和输出。在Java的API中，可以从其中读入一个字节序列的对象称作输入流，而可以向其中写入一个字节序列的对象称作输出流。这些字节序列的来源地和目的地可以是文件，也可以是网络连接，甚至是内存块。IO流分为字符流和字节流，至于二者之间的区别是什么，这里就不详细介绍了，可以自行百度 ^_^ 下图是IO流对象的继承关系，...

2018-03-09 20:40:55 446

原创 Java基本数据类型小总结

Java基本数据类型 java的基本数据类型一共有8种，可以先思考一下一共有哪8种呢？6种数字类型（四个整数型，两个浮点型）1种字符型1种布尔型按顺序介绍byte（8位）范围 -2^7 - 2^7-1(-127 - 128)short（16位）范围 -2^15 - 2^15-1(-32768 - 32767)int（32位）范围 -2^31 – 2^...

2018-03-07 10:21:15 237

原创大数据各部分功能组件启动命令

hadoop部分hive的启动命令1.启动hiveserver2: 输入hive --service hiveserver2 --hiveconf hive.server2.thrift.port=100002.这时hive的服务器开启，再重新打开一个窗口输入beeline，出现beeline version的信息3.在输入!connect jdbc:hive2://17

2018-01-19 22:05:48 517

random0815的博客