Big Date &Cloud Computing Lear
startLight2019
优质程序猿一枚!!!
AI平台系统研发、数据处理与分析、区块链应用系统研发
展开
-
KNN 和 K-Means 的区别
KNNK-Means1.KNN 是分类算法2. 监督学习3. 喂给它的数据集是带 label 的数据,已经是完全正确的数据1.K-Means 是聚类算法2. 非监督学习3. 喂给它的数据集是无 label 的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序没有明显的前期训练过程,属于 memory-based learning有明显的前期训练过程K ...原创 2020-03-20 19:45:06 · 180 阅读 · 0 评论 -
Flink学习札记5——2020.3.1新一代大数据计算引擎 Flink从入门到实战
idea中flink启动报错org.apache.flink.api.common.ExecutionConfig$GlobalJobParameters启动时出现如下报错:Caused by: java.lang.ClassNotFoundException: org.apache.flink.api.common.ExecutionConfig$GlobalJobParamete...转载 2020-03-01 14:12:17 · 358 阅读 · 0 评论 -
Flink学习札记4——2020.2.28新一代大数据计算引擎 Flink从入门到实战
Dataset&Datastream API 1)熟悉两套API:DataSet/DataStream Java/Scala MapReduce ==》 Hive SQL Spark ==> Spark SQL Flink ==> SQL 2)Flink是支持批处理/流处理,如何...原创 2020-02-28 11:58:03 · 261 阅读 · 0 评论 -
Flink学习札记3——2020.2.27新一代大数据计算引擎 Flink从入门到实战
DataSet API编程DataSet API开发概述 Data Source Transformation SinkSource:源/源头 reading files local collections Source ==> Flink(transformations)==> Sin...原创 2020-02-27 17:19:56 · 381 阅读 · 1 评论 -
Flink学习札记2——2020.2.26新一代大数据计算引擎 Flink从入门到实战
大数据处理的流程: MapReduce:input-> map(reduce)-> output Storm:input-> Spout/Bolt-> output Spark:input-> transformation/action-> output Flink:input-> transformation/s...原创 2020-02-26 18:02:22 · 329 阅读 · 1 评论 -
SparkStreaming学习札记5-2020-2-17--SparkStreaming实时流处理项目实战
查询两个数据表中的相关联的数据整合SQL语句select b.course_name course_name, a.click_count click_countfrom( (select course_id,click_count from course_click_count where day='20200216') a join (select course_id...原创 2020-02-17 12:20:26 · 129 阅读 · 0 评论 -
SparkStreaming学习札记5-2020-2-16--SparkStreaming实时流处理项目实战
12-13 -功能一之Hbase及打包注意事项功能1:今天到现在为止实战课程的访问量 yyyyMMdd courseio使用数据库来进行存储我们的统计结果 Spark Streaming把统计结果写入到数据库里面可视化前端根据:yyyyMMdd courseid把数据库里面的统计结果展示出来 ...原创 2020-02-16 15:41:58 · 216 阅读 · 0 评论 -
SparkStreaming学习札记4-2020-2-15--SparkStreaming实时流处理项目实战
12-8 -通过定时调度工具每一分钟产生一批数据1.在线工具https://tool.lu/crontab/contab -e */1 * * * * /hadoop/data/project/log_generator.sh2.对接python日志产生器输出的日志到Flume定义名字为streaming_project.conf选...原创 2020-02-15 16:02:30 · 131 阅读 · 0 评论 -
SparkStreaming学习札记3-2020-2-14--SparkStreaming实时流处理项目实战
第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础1.日志到flume环节编写flume配置文件streaming.conf后进入flume目录cd /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf启动flume-ng agent --conf $FLUME_HOM...原创 2020-02-14 14:28:15 · 120 阅读 · 0 评论 -
SparkStreaming学习札记2-2020-2-13--SparkStreaming实时流处理项目实战
第9章 Spark Streaming整合Flume1.Receiver方式整合1)启动zk./zkServer.sh start2)启动Kafka./kafka-server-start.sh -daemon /home/hadoop/app/kafka_2.11-0.9.0.0/config/server.properties其中-daemon是指后台运行3)创建topic./...原创 2020-02-13 13:00:33 · 115 阅读 · 0 评论 -
SparkStreaming学习札记1-2020-2-11--SparkStreaming实时流处理项目实战
1.2.原创 2020-02-13 11:58:26 · 137 阅读 · 0 评论 -
Big Date &Cloud Computing LearnGit
一:Linux篇rpm--》Redhat package manage二:.高并发负载均衡配置•1,准备3台虚拟机•2,先配置3台虚拟机的网络:–eth0,配置在一个网段•DIP,RIP在一个网段•3,配置lvs的VIP–ifconfig eth0:8 192.168.41.100/24-cat /proc//sys/net/ipv4/ip_forwar...原创 2020-02-25 10:41:03 · 343 阅读 · 0 评论 -
Hadoop伪分布式配置
伪分布式 (single node setup)---------------------------安装jdk、配置环境变量,测试rpm -i jdk-7u67-linux-x64.rpm #安装jdkcd /usr/java/jdk1.7.0_67/ #进入jdk安装目录,准备配置环境变量pwd #查看当前目录并复制vi + /etc/pro...原创 2020-02-25 10:40:13 · 110 阅读 · 0 评论