大数据
gao_shi_qing
这个作者很懒,什么都没留下…
展开
-
大数据学习之虚拟机准备
文章目录大数据学习之虚拟机准备使用linux的版本:centos6.8使用VMware12虚拟机安装安装完成后后续工作1.修改IP地址2.修改网络服务3.重启网络服务4.修改hostname5.ip地址映射6关闭防火墙7.重启linux(reboot) 大数据学习之虚拟机准备 使用linux的版本:centos6.8 使用VMware12 虚拟机安装安装完成后后续工作 1.修改IP地址 v...原创 2019-05-10 15:35:16 · 468 阅读 · 0 评论 -
关于Window下使用hadoop遇到的坑
window下配置的JAVA_HOME本身使用没有问题,但是用hadoop调用JAVA_HOME这个变量就会在一些特定的场景会出错,建议环境变量的地址修改为 推荐:C:\PROGRA~1\Java\jdk1.8.0_131 C:\Program Files\Java\jdk1.8.0_131 遇到场景 使用spark保存dataFrame数据到本地,报一堆莫名其妙的错误,当然,也提示了hadoop...原创 2019-06-05 16:36:26 · 186 阅读 · 0 评论 -
Flink在大数据流处理方面的注意事项
关于Flink在大数据方面使用的注意事项(初学者),以流处理为例,目前Flink在数据处理流方面分为批处理和流处理。原创 2019-06-28 20:19:31 · 1198 阅读 · 0 评论 -
恶意登录监控的CEP实现
文章目录 恶意登录监控的CEP实现 前提链接,那里是第一种实现方式 注意事项:正确导入Map的包 import org.apache.flink.cep.scala.{CEP, PatternStream} import org.apache.flink.cep.scala.pattern.Pattern import org.apache.flink.streaming.api.scala._ ...原创 2019-06-28 21:46:11 · 525 阅读 · 0 评论 -
关于hive,spark,pyspark 使用UDF的一些理解(总结)
文章目录使用方式①在hive中使用udf使用java代码编写udf使用scala代码编写udf②在spark中使用udf在spark-submit中添加--jars xxx.jar方式引用外部udf的形式在spark中注册udf③在pyspark中使用udfpython中注册udf使用pandas的udf引用scala或者java打成的jar包来注册udf在spark-submit中添加--jar...原创 2019-08-22 20:51:33 · 1880 阅读 · 3 评论