![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
文章平均质量分 50
pan_haufei
这个作者很懒,什么都没留下…
展开
-
Word2Vec
以前对于文本类型的数据,都是通过tf-idf进行处理的,这个可以参见以前写的博客,这里就不在详细介绍了。最近项目组老大跟我说了word2vec这种文本型特征提取的方式。特地给我讲解了一下俩者之间的区别: 一个词经过tf-idf处理之后,是一个数字,如果是相近的词语,它是无法区分的。Word2Vec就不一样了,比如研究和科研这俩个词,经过Word2Vec处理之后,是向量的形式。科研:[原创 2017-06-06 21:34:27 · 466 阅读 · 0 评论 -
apache griffin本地安装部署
1.下载到本地github地址:https://github.com/apache/griffin2.解压导入到idea,安心等待下载依赖jar包3.修改service模块下的三个配置文件,见图片 4.编译等待5.右键运行6.本地访问...原创 2018-12-17 19:26:54 · 5944 阅读 · 16 评论 -
通过oozieClient获取指定jobid工作流的状态信息以及节点的状态信息
1.pom文件添加依赖<dependency> <groupId>org.apache.oozie</groupId> <artifactId>oozie-client</artifactId> <version>4.3.1</version&g原创 2018-12-03 17:05:41 · 2032 阅读 · 0 评论 -
selenium使用webdriver,打开浏览器
1.准备python安装,环境变量配置selenium安装:pip install selenium2.写一个打开百度的脚本 test.pyfrom selenium import webdriverimport timedriver=webdriver.Chrome()driver.maximize_window()time.sleep(5)driver.get("...原创 2018-07-27 15:08:57 · 11003 阅读 · 1 评论 -
shell定时执行
1.安装crontabyum install vixie-cronyum install crontabs2.启动crontab服务service crond start 启动服务service crond stop 关闭服务service crond restart 重启服务service crond reload 重新载入配置service crond stat...原创 2018-07-27 09:51:47 · 6511 阅读 · 0 评论 -
用oozie命令行的方式在yarn上运行spark任务
1.做这个实验之前你的服务器上最好装了cdh集群,以及添加必要的组件,如hadoop,oozie,spark,yarn等。2.需要准备一个关于spark的demo架包,我写的是WordCount功能的jar,网上关于这个的一大堆。3.准备一个job.propertie和workflow.xml,内容如下job.propertiesworkflow.xml3.把需要的配置原创 2017-07-20 11:48:59 · 4597 阅读 · 7 评论 -
hive脚本的三种执行方式
1.hive控制台执行,安装了hive之后直接命令行输入hive,进入控制台。2.hive -e "sql语句",直接输入就会有结果,sql语句根据具体情况自己书写3.hive -f a.sql -hivevar table=peoplea.sql的内容如下set mapred.job.queue.name=default;set hive.exec.red原创 2017-08-17 15:13:30 · 2460 阅读 · 0 评论 -
hive基本概念
1.hive是一个基于hadoop之上的一个数据仓库。可以处理的数据是关系型数据库(结构性)、本地数据、hdfs数据(非结构化的数据);2.hive是对处理数据的mapreduce的封装平台3.hive会提供一些简单的类sql语句来代替mapreduce执行;4.hive是为对数据库比较数据的非专业人员准备的5.hive的操作语句:QL语句--》HSql--》类(like)sq原创 2017-08-17 14:08:03 · 917 阅读 · 0 评论 -
OneHotEncoder介绍单属性多属性scala实现
因为项目的需要,将数据库中表的属性向量化,然后进行机器学习,所以去spark官网学习了一下OneHotEncoder,官网的相关介绍比较少,主要是针对单属性的处理,但是项目的要求是多属性的处理,网上找了很多的资料,研究了大半天终于将它集成到了自己的项目之中,下面分享一下自己的学习心得,说的不好的地方,还请各位大神多多指教。 介绍:将类别映射为二进制向量,其中至多一个值为1(其余为零)原创 2017-06-07 21:00:51 · 4396 阅读 · 0 评论 -
oozie action参数传递
1.shell节点参数传递 第一步:在shell节点编辑器中将想要传递的变量输出:# !/bin/bashtest='test123'echo "test:$test" 第二步:节点高级属性中勾选捕获输出: 第三步:其他节点获取想要的变量:${wf:actionData(nodeName).variableName}nodeName:想要获取输出变量...原创 2019-01-07 16:24:07 · 2542 阅读 · 0 评论