大数据
coder_oyang
墓志铭
展开
-
python环境配置打包
python 打包记录 1. pipinstall-i https://pypi.tuna.tsinghua.edu.cn/simplevirtualenv 2. virtualenv --always-copy venv#用 virtualenv 以 always-copy 方式建立一个全新的 Python 环境,这里定义名称为 venv;会在当前目录生成一个 venv 文件 3. VENV_PYTHON=venv/bin/python 4. DST=`$V...原创 2021-01-18 11:13:44 · 431 阅读 · 0 评论 -
pyspark 记录
1. 读取文件./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/tst #读取本地文件 ./bin/spark-submit examples/src/main/python/wordcount.py file:///home/hadoop/coder_oyang/ #读取本地文件夹 ./bin/spark-submit examples/src/main/python..原创 2020-12-22 11:21:05 · 227 阅读 · 0 评论 -
scala word2vec 工程异常总结
scalaword2vec在集群出现奇奇怪怪的问题,代码如下:val documentDF = sentence.map(Tuple1.apply) .toDF("macs_videos") .repartition(15) documentDF.show(3, false) val model = new Word2Vec() .setInputCol("macs_videos") .setOutputCol("vector").原创 2020-08-29 16:26:54 · 316 阅读 · 1 评论 -
scala 基础 - join
Spark DataFrame中join与SQL很像,都有inner join, left join, right join, full join;类型 说明 inner join 内连接 left join 左连接 right join 右连接 full join 全连接 spark join看其原型def join(right : DataFrame, usingColumns : Seq[String], joinType : String).原创 2020-08-03 20:23:48 · 3563 阅读 · 1 评论 -
scala 基础-flatMap
在你调用map方法后紧接着调用flatten方法的情况下,你就可以尝试调用flatMap来解决这个问题了。满足如下情况: 使用map方法来从原集合基础上创建一个新的集合 map方法的返回结果是一个嵌套集合,或者元素为Some和None 你在map方法后紧接着调用了flatten方法 如果你的程序正好符合上面的情况,那么你就是可以使用flatMap来代替collection.map.flatten了下面这个例子中,你会看到如何使用flatMap来处理一个Option。在这个例原创 2020-07-30 10:55:15 · 704 阅读 · 0 评论 -
pyspark -- Please check environment variables PYSPARK_PYTHON
Exception:Python in worker has different version 3.6 than that in driver 2.7,PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly setfrom __future__ import print_funct原创 2020-07-13 21:47:13 · 993 阅读 · 2 评论 -
检索-推荐
1.Annoy(Approximate Nearest Neighbors Oh Yeah)算法是应用于稠密矩阵的最近邻查找算法,Annoy的目标是建立一个数据结构,使得查询一个最近邻的时间是线性的。Annoy通过对输入矩阵建树来获取O(log n)的检索速度建库:平面内随机取一个点作为种子节点,随机取200个节点判断每个点和哪个种子距离更近,取上述点的中心为最终的中心点,优缺点:树形检索快;...原创 2020-02-26 17:31:56 · 308 阅读 · 0 评论 -
hadoop streaming bistreaming ustreaming
1. 问题1close failed in file object destructor:sys.excepthook is missinglost sys.stderr原创 2019-04-24 11:28:23 · 962 阅读 · 0 评论 -
HQL - HiveQL
use namespace dba_ns; #选定数据库set user_write_ugi:hdfs://nmg01-xxxx-hdfs.dmop.xxxxx.com:54310/app/ecom/fcr/bigdata_dump/user_feature/=xx,xxxxxxx; #赋值:用户名,密码insert overwrite directory 'hdfs://nmg01-xxxx...原创 2019-02-23 13:31:05 · 323 阅读 · 0 评论 -
流式计算引擎
批量计算:收集数据-存入DB-取出分析,先将数据存进去,再处理区别:1. 与批量计算累积数据不同,流式计算将大数据平摊到各个结点上,连续进行小批量的传输,流动,计算完后抛弃2. 批量计算维护一张表,对表进行各种逻辑操作,流式计算相反,须先定义好计算逻辑,提交到流式计算系统,计算逻辑在整个运行期间不可更改3. 计算结果上,批量计算是对全部数据计算后传输结果,流式计算是每次小批量计算后...原创 2019-01-11 20:25:50 · 1946 阅读 · 0 评论 -
hadoop streaming 使用总结
hadoop client: 客户端可以让用户访问集群,hadoop client 使用手册,通过配置hadoop-site.xml文件,实现访问不同集群,同时该客户端目录的 xx/xx/hadoop/bin/hadoop 是你配置的hadoop命令路径,在streaming命令参数配置时,需要指明该hadoop位置,对于该命令,可以通过alias hadoopdr='xx/xx/hadoop/...原创 2018-11-08 10:06:32 · 811 阅读 · 0 评论