数据开发
时光入海流Zz
这个作者很懒,什么都没留下…
展开
-
Es简单操作以及部署到springboot(2020年7月)
以下内容的文字稿在家里电脑上,现将部分截图发出来,以防止后期要用到这块知识突然忘记。等下次回家,会重新整理的~Should 模糊匹配;must 必须匹配ES维护最小次元到文档ID的映射,如图通过logstash,运行配置好的mysql.conf,将mysql数据库同步至ElasticSearchGithub: 适合中文的分词器。默认分词器不能很好分割中文词组“他们很厉害”,默认:他,们,很,厉,害 Ik:他们,很厉害https://g原创 2020-10-29 10:31:22 · 260 阅读 · 0 评论 -
数据标签开发之SparkSQL
书中简介注意Tree和Rules的概念1) 将SQL语句通过词法和语法解析生成未绑定的逻辑计划(包含UnresolvedRelation、Unresolved Function和Unresolved Attribute),然后在后续步骤中使用不同的Rule应用到该逻辑计划上;2) Analyzer使用Analyzer Rules,配合数据元数据(如Sessioncatalog或Hive Metastore等),完善未绑定的逻辑计划的属性而转换成绑定的逻辑计划。具体流程是先实例化一个Simple A原创 2020-08-03 09:17:54 · 345 阅读 · 0 评论 -
Hive实操:Sqoop/ Mysql/ hdfs /hadoop
Hive实操1.1 docker文件拷贝 docker cp 或通过docker cp –help查看用法:CONTAINER的ID:复制命令格式:1.2 Hive建表creat table student (id int, name string)nrow format delimited fields terminated by ‘\t’ ;select * from student本地数据,加载到hive的student表中:load data local inpath ‘原创 2020-08-03 09:09:38 · 288 阅读 · 0 评论 -
大数据环境部署 Vagrant/ Git/ Xshell/ Docker/ Hive/ Spark
环境部署1.虚拟机Ubuntu测试:1.1 查看IP地址:ip addr1.2 虚拟机内部Ping www.baidu.com,观察丢包率1.2 Windows环境下,Ping 虚拟机系统网络,观察掉包率1.3 虚拟机环境中,选择下载源 aliyun“软件和更新”-“下载自”-“更多方式”-“aliyun”2. Vagrant官网-FindBoxes-Search Boxes-Vagrantfile/New2.1 安装Git-打开GitBash-导入New-开始下载-当目录生成下载原创 2020-08-03 09:11:55 · 420 阅读 · 0 评论 -
用户画像入门简介
用户画像基础1.1 用户画像简介用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。一般企业中,数据应用体系的层级划分为:基础平台建设、报表与可视化、产品运营与分析、精细化运营工具以及战略决策。1.2 用户标签类型统计类标签:最基础的标签,如性别、年龄、城市、活跃度等属性。规则类标签:基于用户行为,并由数据人员和运营人员共同制定的规则产生。如定义“消费活跃原创 2020-08-03 08:22:14 · 773 阅读 · 0 评论 -
SpringBoot总结【注解,项目配置,Controller,RESTful API,数据库操作,事务】
1. 原理与优势SpringBoot是一个便捷开发框架,能很好地将一些常用的第三方依赖整合(原理:通过Maven子父工程的方式),简化XML配置,全部采用注解形式,内置Http服务器(Tomcat),最终以java应用程序进行执行。核心优势:1>无配置文件(纯Java)完全注解化+2> SpringBoot核心快速整合第三方框架原理:Maven继承依赖关系。SpringBoot的实现是由启动器和自动配置以及大量的注解来完成的。启动器是我们在pom文件中引入的依赖;自动配置是Spring原创 2020-05-29 14:25:12 · 1493 阅读 · 0 评论