![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
yayun_kg
这个作者很懒,什么都没留下…
展开
-
MongoDB on SparkSql的读取和写入操作(Python版本)
MongoDB on SparkSql的读取和写入操作(Python版本)1.1 读取mongodb数据python方式需要使用pyspark 或者 spark-submit的方式进行提交。下面pyspark启动的方式:1.1.1 使用pyspark启动命令行本地安装的spark版本为2.3.1,如果是其他版本需要修改版本号和scala的版本号pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.3.11.1.2 在转载 2020-06-24 23:25:51 · 567 阅读 · 0 评论 -
Flink知识梳理
原创 2020-06-06 11:23:55 · 217 阅读 · 0 评论 -
spark分布式集群部署的配置文件记录和代码运行
spark.eventLog.enabled truespark.eventLog.dir hdfs://bigdata01:8020/spark-logsexport SPARK_HISTORY_OPTS="-Dspark.history.ui.port=68080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://bigdata01:8020/.原创 2020-05-08 18:41:10 · 261 阅读 · 0 评论 -
hbase分布式集群部署与配置
1,下载版本,本次我下载的版本是 hbase-0.98.6-cdh5.3.0.tar分布式规划图:配置信息:接下来 就是 实际的配置:进入 conf目录:原创 2020-05-06 09:51:20 · 168 阅读 · 0 评论 -
大数据提取数据深度学习三元组关系抽取大规模知识图谱数据流设
从大数据里面提取数据,进入深度学习框架,提取关系三元组。做大规模知识图谱数据流设计如下图:比较详细讲述g’yu原创 2020-04-01 15:36:31 · 1493 阅读 · 0 评论