lbf_ML-CSDN博客

原创修改表操作

cascade;--cascade 表示元数据修改刷新之后有数不然刷新之后也会为空。

2025-04-14 17:10:00 75

Archive命令hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档文件格式，它能够将多个小文件打包成一个后缀为.har文件，这样减少namenode内存使用的同时，仍然允许对文件进行透明的访问。hadoop Archive目录包含元数据文件（ _index 和 _masterindex）和数据文件（part-*），这个_index文件包含了所有文件的名称和他对应par...

2019-09-18 22:21:57 2669 1

原创【python】视频、图片使用request获取及处理

视频获取通过requestimport requestsurl = "https://flv.bn.netease.com/videolib3/1703/29/qozNg4588/SD/qozNg4588-mobile.mp4"res = requests.get(url,stream=True)with open('a.mp4','wb') as f: f.write(res....

2019-09-09 16:26:20 2226

原创【特殊字符】 split函数使用

scala 语言对于name = "(weuiewui)" 分词是如果表达对于特殊字符均使用\\+特殊字符name.split("\\(")hive语法: split(string str, string pat)返回值: array说明: 按照pat字符串分割str，会返回分割后的字符串数组select split("(asdjaskd)adasda","...

2019-09-04 14:45:14 1078

原创【scala】Json与Scala类型的相互转换处理

1、头文件import com.alibaba.fastjson.{JSON, JSONArray, JSONObject}import com.fasterxml.jackson.databind.ObjectMapperimport com.fasterxml.jackson.module.scala.DefaultScalaModuleimport net.minidev.json....

2019-09-04 11:06:05 7297 2

转载【自然语言处理】知识图谱

语境分类详情物理语境时间、地点/场所 ; 天气 ; 情绪及情感; 设备显示; 设备感知言语语境上下文;主题及焦点;设备反馈知识语境人类常识; 领域知识;Agent画像;设备信息库; 用户画像语境的生命周期请求级别;会话级别;长期知识图谱Thing, not Strings是一种知识的组织形式是一种概念模型关系数据库：ER面向...

2019-08-27 15:04:52 993

转载【广告投放】名称概念

【广告投放之名词概念】1、关键词的分类1）品牌词2）产品词3）竞品词4）通用词5）人群词关键词如何选择？投放中应该注意的！2、专有名词解释CPMCPTCPCCPDCPSCPI其他名词解释1、关键词的分类使用关键词投放的原因是：定位更多精准受众，并在一定程度上减少甚至是避免无效点击，提升最终的广告转化。而首先明确关键词的分类，对实际的投放设置及后期策略优化具有重要的指导意义。在DSP 推广中，关...

2019-08-26 17:18:53 3514

转载【数据仓库】数据仓库的介绍

一数据仓库的概念1什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。2数据仓库能干什么？1）年度销售目标的指定，需要根据以往的历史报表进行决策，不能拍脑袋。...

2019-08-20 23:43:24 1136

转载【spark】spark 原理

spark优势：Spark 是在借鉴了 MapReduce 之上发展而来的，继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷，（spark 与 hadoop 的差异）具体如下：1、Spark 把中间数据放到内存中，迭代运算效率高。MapReduce 中计算结果需要落地，保存到磁盘上，这样势必会影响整体速度，而 Spark 支持 DAG 图的分布式并行计算的编程框架，减少...

2019-08-20 22:45:57 400

转载【spark】之 spark streaming

SparkStreaming　　Spark Streaming类似于Apache Storm，用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如：map、reduce、join、window...

2019-08-20 20:15:03 197

原创 scala 中 insertinto 插入hive数据数据重复或者乱码或者为空

数据读写详细看官网：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReaderhive数据读取：# 读取hive要加enableHiveSupport()，以可以使用hql对hive进行操作spark = SparkSession.builder.e...

2019-05-16 14:42:11 2216

原创 hive 和mysql同样的数据group by 之后为什么数据量不一致

hive区分大小写，mysql是不区分大小写的。因此会有这种问题

2019-01-22 18:13:12 1899 3

原创 scala List 及toList的区别

第一种情况 String对象第二种情况String对象对象是Array

2019-01-22 11:31:57 3235

原创 hive map，arrary ，struct 复杂结构小记

1、map结构定义：map<datatype1,datatype2> 类型1和类型2可以一样map<string,double> 两种数据类型合成例子：{“data":1232.23，”data2":323.0}与其他语言一样，是map{key1:value1,key2:value2,...}访问可以使用列名来访问： select map1['name...

2019-01-07 15:26:13 1258