![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记-hadoop
hadoop生态学习笔记
AlbertLiangzt
个人主页albertliangzt.com
展开
-
spark-sql
从hdfs的原始text中读数据object SqlTest { def main(args: Array[String]) { val studentSchema: StructType = StructType(mutable.ArraySeq( StructField("Sno", StringType, nullable = false), StructField("Sname", StringType, nullable = false), St原创 2020-10-24 15:39:38 · 168 阅读 · 0 评论 -
回归算法 逻辑斯谛回归(LR算法)
回归算法 LR算法二分类(Logistic Regression 逻辑斯谛回归 简称LR):model -> 0/1多分类(Softmax):model -> 0/1/2…一、Sigmoid函数——逻辑回归的实现1.2.用sigmoid原因:简单来讲,可以将(-∞, +∞)的输入变量映射到(0,1),作为后验概率在某个临界点左右两端变化较大,比较容易进行分类二、基本公式推导1.对sigmoid求w偏导:η(t)=11+e−t\eta(t)=\frac{1}{1+e^{原创 2020-07-23 11:00:25 · 428 阅读 · 0 评论 -
分类算法 朴素贝叶斯(NB算法)
python代码及相关数据链接:https://pan.baidu.com/s/1DhSsi5LdDlERv_g_v2-XVQ提取码:sn53复制这段内容后打开百度网盘手机App,操作更方便哦第一部分 分类算法 NB算法朴素贝叶斯 (NaiveBeyesian Classification)一、概述一种常见的机器学习任务给定一个对象,将其划分到预定好的某类别中(贝叶斯决策理论)核心思想选择高概率对应的类别二、贝叶斯原理P(X):待分类对象自身的概率,可忽略P原创 2020-06-28 00:11:20 · 1202 阅读 · 0 评论 -
CB、CF
一、CB算法(Content-based Recommendations)基于内容的推荐。1.引入item属性根据物品的属性进行推荐a.搜索:“笔记本电脑”,b.拆分(如jieba):笔记本+电脑c.推荐:笔记作业本 台式电脑2.引入user属性引入了用户行为(基于历史行为)a.用户第一天浏览了猫咪,第二天浏览猫抓板,第三天浏览猫粮b.分析用户的浏览行为——用户养猫了c.推荐——猫砂如果是itme属性,当用户第三天浏览时,就会推荐A牌猫粮,B牌猫粮3.计算3.0数据准备原创 2020-06-20 21:10:11 · 477 阅读 · 0 评论 -
flume+kafka+storm+hbase
1.启动服务1.1 flume kafka storm同flume+kafka+storm1.2 hbase服务hbase-0.98.6-hadoop2/bin/目录下./start-hbase.sh 2.启动任务python /usr/local/src/apache-storm-0.9.3/bin/storm jar \ /usr/local/src/learn/albert/24_storm_extend/extend.jar \ stormHbase.StormKafka \原创 2020-06-11 00:43:15 · 275 阅读 · 0 评论 -
flume+kafka+storm+http(分词)
文件说明HttpClientTest.java http测试类StormKafka.java storm的spoutFeatureExtractBolt.java storm的boltrun_storm_http_test.sh http测试类run_storm_http.sh http分词一、http+storm1、端口测试1.1 启动storm服务apache-storm-0.9.3/conf/bin/目录下master python storm ni原创 2020-06-09 23:05:41 · 292 阅读 · 0 评论 -
flume+kafka+storm
文件说明链接:https://pan.baidu.com/s/13ByW0P4IiLCvHbksNnbGpQ提取码:rkdiflume_kafka_storm.properties flume配置storm_master_lib.zip storm在master节点的lib包storm_slave_lib.zip storm在slave节点的lib包StormKafka.java StormKafka的测试类PrinterBolt.java 只做输出run_storm_kafka.sh 启原创 2020-06-07 00:29:48 · 359 阅读 · 0 评论 -
spark-streaming
1.运行任务1>标准输出 2>错误输出bash wc_local.sh 1>1.log 2>2.log2.监控日志tail -f 1.log3.打开端口nc -l 99994.测试wordCountpackage com.albert.streaming.testimport org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.sp原创 2020-06-03 06:25:34 · 245 阅读 · 0 评论 -
storm_1_test
源码链接:https://pan.baidu.com/s/1mlMZ9DiyfYqV6sNKghOjHQ提取码:0g00注意,打成包含依赖jar包的jar包时,删除storm-core.jar——storm-core下面也存在一个defaults.yaml文件,因此storm运行时报错冲突0.解压缩tar -zxvf apache-storm-0.9.3.tar.gz1.修改配置文件apache-storm-0.9.3/conf/目录下storm.yaml新增参数storm.zookeep原创 2020-05-24 16:01:13 · 201 阅读 · 0 评论 -
kafka_2_flume+kafka
4.flum+kafka4.1服务准备kafkamaster、slave1、slave2服务 ./bin/kafka-server-start.sh config/server.properties创建一个新的topic ./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 5 --topic flume_kafkaconsumer服务 p原创 2020-05-17 18:06:29 · 227 阅读 · 0 评论 -
kafka_1_test
0.解压缩tar -zxvf kafka_2.11-0.10.2.1.tgz1.修改参数kafka_2.11-0.10.2.1/config目录下server.properties文件master broker.id=0 # 放开注释即可 delete.topic.enable=trueslave1 broker.id=1 # 放开注释即可 delete.topic.enable=trueslave2 broker.id=2 # 放开注释即可原创 2020-05-17 01:03:37 · 228 阅读 · 0 评论 -
flume_1_stand_alone
1.解压缩tar -zxvf apache-flume-1.6.0-bin.tar.gz2.单机模式2.1 Netcat方式配置 flume/conf目录下 # 新建配置文件 touch flume_netcat.conf # 修改配置文件 vim flume_netcat.conf # 新增 agent1.sources = soureces1 agent1.channels = channel1 agent1.sinks = sinks1 agen原创 2020-05-14 21:11:10 · 132 阅读 · 0 评论 -
flume_2_cluster
1.sink组1.1 故障转移(failover)1.1.1配置 flume/conf/目录下master新建flume_1_1_failover.properties,并添加下列参数 # Name the components on this agent agent1.sources = source1 agent1.sinks = sink1 sink2 agent1.channels = channel1 agent1.sinkgroups = sinkgrou原创 2020-05-14 21:10:23 · 154 阅读 · 0 评论 -
hbase shell命令
一、操作表结构1.创建表 > create 'm_table', 'meta_data', 'action'2.删除表: > disable 'm_table' > drop 'm_table'3.添加列簇 > alter 'm_table', {NAME=>'cf_new', VERSIONS=>3, IN_MEMORY=...原创 2020-05-07 14:34:29 · 169 阅读 · 0 评论 -
04zookeeper安装
1.解压缩 tar -zxvf zookeeper-3.4.5.tar2.新建myid文件zookeeper-3.4.5/目录下 touch myid vim myid # 新增 03.修改cfg文件zookeeper-3.4.5/conf目录下cp zoo_sample.cfg zoo.cfg vim zoo.cfg# 新增# server.服务器id(myid)=...原创 2020-04-30 22:43:58 · 333 阅读 · 0 评论 -
05hbase安装
1.解压缩tar -zxvf hbase-0.98.6-hadoop2-bin.tar.gz2.配置环境hbase/conf目录下hbase-env.sh vim hbase-env.sh # 新增 export JAVA_HOME=/usr/local/src/jdk1.8.0_172 export HBASE_MANAGES_ZK=false # false用第三...原创 2020-04-30 22:37:46 · 410 阅读 · 0 评论 -
02spark安装
spark-1.6.0下载链接:https://pan.baidu.com/s/1xZj2YGqds1JZAJF6o9uKfA提取码:o9wv一、安装1.解压缩spark-1.6.0-bin-hadoop2.6.tgztar -zxvf spark-1.6.0-bin-hadoop2.6.tgz2.进入con目录spark-env.sh新增参数cp spark-env.sh.t...原创 2020-04-28 22:09:00 · 173 阅读 · 0 评论 -
03hive安装
2、3、4下载链接:https://pan.baidu.com/s/1Ddcd6Aba3AhTUtFwCEytxw提取码:islr1.安装mysqlcentos7安装mysql2.解压缩tar -zxvf apache-hive-1.2.2-bin.tar.gz3.hive/lib增加文件mysql-connector-java-5.1.41-bin.jar4.hive/con...原创 2020-04-24 22:22:35 · 161 阅读 · 0 评论