自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive多次嵌套使用struct时如何指定分隔符?

目前是嵌套了两层,HUE查看表结构如下:建表语句:CREATE TABLE `test.struct_test2`( `a` int, `b` struct<b1:int,b2:struct<b21:int,b22:int,b23:int>,b3:int>, `c` int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY ','可以看到这里指定

2021-09-14 11:12:59 363 1

转载 【转】数据仓库ODS、DW和DM概念区分

【转】数据仓库ODS、DW和DM概念区分原文章今天看了一些专业的解释,还是对ODS、DW和DM认识不深刻,下班后花时间分别查了查它们的概念。ODS——操作性数据DW——数据仓库DM——数据集市1.数据中心整体架构数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。2.数据仓库的ODS、DW和DM概念ods、dw、dm区分

2020-11-19 14:46:36 234

原创 scala处理科学计数法的时间

遇到了一个科学计数法表示的时间1.3815072E+12,想要将其转换为指定格式yyyy-MM-dd HH:mm:ss,思路如下:import java.text.SimpleDateFormatimport java.util.Dateobject test { def main(args: Array[String]): Unit = { val decimal = new java.math.BigDecimal("1.3815072E+12") val timesta

2020-11-16 11:43:56 565

转载 [git]merge和rebase的区别

https://www.cnblogs.com/xueweihan/p/5743327.html

2020-11-10 11:59:57 87

原创 hive表加载数据

hive表加载数据总结自己在hive表中常用的几种载入数据的方式1. load data (常用)load data inpath ‘/集群路径.txt’;load data local inpath ‘/本地路径’;2. select(偶尔用)insert into table tablename1 as select * from tablename23. insert(基本不用)insert into table tablename (id,name) values (001,aa

2020-09-29 12:01:48 156

原创 hive内部表外部表的挂载数据、删除数据及修改原数据

标题hive内部表外部表的挂载数据、删除数据及修改原数据各种细节,一一帮你踩坑原数据1700 Beijing1800 London1900 Tokyo建立外部表:create external table studentid intname strin)row format delimited fields terminated by ' '加载本地数据:load data local inpath '/root/data/student.txt' into table st

2020-09-29 09:27:18 1271 3

原创 Hadoop高可用+联邦机制简谈

Hadoop HA及联邦机制配置指南一 Hadoop HA机制存在原因1.1 HA:High Available,高可用1.2 如何解决:1.3 集群规划样例:二 HAhadoop安装配置2.1 以3台机器配置 hadoop HA 为例2.2 提前工作2.3 Hadoop集群模式环境部署 HA一、服务节点的部署规划二、ZooKeeper 配置--分布式模式三、配置 Hadoop 集群1)、core-site.xml2)、hdfs-site.xml3)、mapred-site.xml4)、yarn-site.

2020-08-17 20:40:25 537

网络舆情分析系统的设计与实现.rar

这是本人2019年软工毕业的课题,本系统采用Microsoft Visual Studio开发环境、C#编程语言以及SQL SERVER数据库等工具和技术。主要实现了四个功能:舆情数据采集、突发主题识别、突发话题检测和词库管理,它们的特点分别是:舆情数据采集利用网络爬虫技术,对网页信息数据实时提取、加载和更新,并且确保提取出有价值的信息;突发主题识别采用支持向量机(SVM)的文本分类算法,在兼顾高效性和稳定性的前提下,较好的完成了论坛主题帖的突发性识别;突发话题检测抛开传统的以文本为中心的话题检测方法,针对论坛文本简短、用词随意等特征,采用基于特征的突发话题检测方法,这样更具有实用性;词库管理支持添加未登录词,以提高分词的准确性,进而提高聚类的准确率,因此能够更好的发现网络舆情。

2019-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除