自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 【hadoop】Archive命令使用

Archive命令hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式,它能够将多个小文件打包成一个后缀为.har文件,这样减少namenode内存使用的同时,仍然允许对文件进行透明的访问。hadoop Archive目录包含元数据文件( _index 和 _masterindex)和数据文件(part-*),这个_index文件包含了所有文件的名称和他对应par...

2019-09-18 22:21:57 2453 1

原创 【python】视频、图片使用request获取及处理

视频获取通过requestimport requestsurl = "https://flv.bn.netease.com/videolib3/1703/29/qozNg4588/SD/qozNg4588-mobile.mp4"res = requests.get(url,stream=True)with open('a.mp4','wb') as f: f.write(res....

2019-09-09 16:26:20 2089

原创 【特殊字符】 split函数 使用

scala 语言对于name = "(weuiewui)" 分词是如果表达对于特殊字符均使用\\+特殊字符name.split("\\(")hive语法: split(string str, string pat)返回值: array说明: 按照pat字符串分割str,会返回分割后的字符串数组select split("(asdjaskd)adasda","...

2019-09-04 14:45:14 1025

原创 【scala】Json与Scala类型的相互转换处理

1、头文件import com.alibaba.fastjson.{JSON, JSONArray, JSONObject}import com.fasterxml.jackson.databind.ObjectMapperimport com.fasterxml.jackson.module.scala.DefaultScalaModuleimport net.minidev.json....

2019-09-04 11:06:05 6634 2

转载 【自然语言处理】知识图谱

语境分类详情物理语境时间、地点/场所 ; 天气 ; 情绪及情感; 设备显示; 设备感知言语语境上下文;主题及焦点;设备反馈知识语境人类常识; 领域知识;Agent画像;设备信息库; 用户画像语境的生命周期请求级别;会话级别;长期知识图谱Thing, not Strings是一种知识的组织形式是一种概念模型关系数据库 :ER面向...

2019-08-27 15:04:52 888

转载 【广告投放】名称概念

【广告投放之名词概念】1、关键词的分类1)品牌词2)产品词3)竞品词4)通用词5)人群词关键词如何选择?投放中应该注意的!2、专有名词解释CPMCPTCPCCPDCPSCPI其他名词解释1、关键词的分类使用关键词投放的原因是:定位更多精准受众,并在一定程度上减少甚至是避免无效点击,提升最终的广告转化。而首先明确关键词的分类,对实际的投放设置及后期策略优化具有重要的指导意义。在DSP 推广中,关...

2019-08-26 17:18:53 1927

转载 【数据仓库】数据仓库的介绍

一数据仓库的概念1什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。...

2019-08-20 23:43:24 787

转载 【spark】spark 原理

spark优势:Spark 是在借鉴了 MapReduce 之上发展而来的,继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷,(spark 与 hadoop 的差异)具体如下:1、Spark 把中间数据放到内存中,迭代运算效率高。MapReduce 中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而 Spark 支持 DAG 图的分布式并行计算的编程框架,减少...

2019-08-20 22:45:57 292

转载 【spark】之 spark streaming

SparkStreaming  Spark Streaming类似于Apache Storm,用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window...

2019-08-20 20:15:03 146

原创 scala 中 insertinto 插入hive数据数据重复或者乱码或者为空

数据读写详细看官网:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReaderhive数据读取:# 读取hive要加enableHiveSupport(),以可以使用hql对hive进行操作spark = SparkSession.builder.e...

2019-05-16 14:42:11 2089

原创 hive 和mysql同样的数据group by 之后为什么数据量不一致

hive区分大小写,mysql是不区分大小写的。因此会有这种问题

2019-01-22 18:13:12 1753 3

原创 scala List 及toList的区别

第一种情况 String对象第二种情况String对象对象是Array

2019-01-22 11:31:57 3133

原创 hive map,arrary ,struct 复杂结构小记

1、map结构定义:map<datatype1,datatype2>  类型1和类型2可以一样map<string,double>  两种数据类型合成例子:{“data":1232.23,”data2":323.0}与其他语言一样,是map{key1:value1,key2:value2,...}访问可以使用列名来访问: select map1['name...

2019-01-07 15:26:13 1169

原创 Sequential Model-Based Optimization(SMBO)

GP、SMBO

2017-02-20 17:16:56 8533 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除