- 博客(36)
- 资源 (18)
- 收藏
- 关注
原创 启动hadoop,只有两个从节点没有DataNode的异常
解决办法:在从节点的logs中查看日志如下:发现问题原因是主节点的VERSIONID和从节点不一样导致的解决办法:1.有重要数据情况下:把主节点的VERSIONID复制到从节点中2.没有重要数据情况下:把主节点的hdfs文件夹都删掉...
2019-03-31 18:04:03 2492
原创 启动hadoop集群报错The authenticity of host 'master (172.16.22.41)' can't be established. ECDSA key fingerp
解决办法:找到/etv/ssh/ssh_config在最后添加:StrictHostKeyChecking noUserKnownHostsFile /dev/null或者:ssh-o StrictHostKeyChecking=no192.168.0.xxx内网中非常信任的服务器之间的ssh连接...
2019-03-31 14:38:57 3508 1
原创 sklearn之三分类应用
用到的代码目录:1.入门demo:(先不关心具体数据是什么)python代码:lr_iris.pyimport numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Logisti...
2019-03-21 14:43:05 1394 1
原创 streaming通过sql对hbase写入数据
代码package com.badou.streamingimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client._import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContex...
2019-03-20 22:29:33 163
原创 streaming通过sql实现wordcount代码
代码package com.badou.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Time, Seconds, StreamingContext}i...
2019-03-20 22:21:44 181
原创 kafka通过spark-streaming往hbase里写数据
1.启动kafka:]# ./bin/kafka-server-start.sh config/server.properties2 查看topic list./bin/kafka-topics.sh --list --zookeeper localhost:21813.streaming代码:package com.badou.streamingimport org.ap...
2019-03-20 22:13:21 1083
原创 spark-sql实践
实践一:读取hdfs方式访问数据1.数据准备:2.spark-sq代码:package com.badou.sqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.Rowimport org.apache.spark.sql.types.{StringType, Str...
2019-03-20 21:49:08 144
原创 spark-streaming实践代码
实践1:wordcount1.1本地跑wordcount代码(无状态):package com.badou.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.storage.St...
2019-03-20 13:36:31 408
原创 storm报错 You're probably bundling the Storm jars with your topology jar.
java.lang.RuntimeException: Found multiple defaults.yaml resources. You're probably bundling the Storm jars with your topology jar.执行storm开发的jar包报错原因:storm-corejar包冲突解决办法...
2019-03-20 11:57:45 464
原创 shell常用命令
查看内存日志输出1>代表标准输出2>代表错误输出杀死MapReduce任务命令:kill spark任务进程命令:yarn application -kill application_1528548413583_0012查看端口号:统计第一列出现0和1的个数数组数据输出第二列两个文件相同的行拼接到相同行...
2019-03-20 11:54:57 173
原创 fume+kafka+storm+hbase的集成代码
1.启动hbase(前提启动了zookeeper和hdfs)查看进程:进入hbaseshell终端:查看hbase状态:查看表列表:查询new_music_table数据:scan 'new_music_table'2.启动kafka:3.编写storm代码:stormKafka.java:package stormHbase;...
2019-03-20 10:46:07 262
原创 flume+kafka+storm+中文分词
思想:flume发送,storm接受,调用webpy服务完成中文分词storm代码:stormKafka.java:package stormHttp;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.StormSubmitter;import bac...
2019-03-20 10:18:05 237
原创 flume+kafka+storm的集成
第一步:启动storm:1.1启动storm集群master: python bin/storm nimbus & python bin/storm ui & python bin/storm logviewer &slave: python bin/storm supervisor &...
2019-03-20 09:30:33 267
原创 storm打jar包执行报错问题You're probably bundling the Storm jars with your topology jar.
在storm项目中,打好jar包,到集群环境下运行报错:原因:在storm-core包中有defaults.yaml这个文件,因为默认maven打包的scope是compile,所以maven打包后,本地的storm-core包也被打入的jar,由于集群环境中,也存在storm-core包,所以会出现文件defaults.yaml重复的错误。解决办法:1、可以在打包后删除该文件...
2019-03-19 23:27:33 731
原创 softmax(多分类算法)实践
1.训练集规模:数据(第一行为维度,每个字段的名字):第二行为具体真是样本数据:第一列是标签,后面是特征(0-9的数字识别)样本格式(10分类,每个类别的样本数较均匀):图像:28*28:softmax代码:# encoding=utf8import sysimport mathimport pandas as pdimport numpy a...
2019-03-12 11:25:31 4545 5
原创 机器学习概述
机器学习概念:一些概念:python机器学习:词袋法(WOB):统计文本中各个单词出现的数量,使用单词出现的数量作为文本的特征向量;词袋法中使用单词作为特征,但是一般情况下单词比较多,所以可以考虑自定义词典作为特征,然后对文档中自定义文档中出现的单词的数量进行统计即可。召回率和精确率互斥,F...
2019-03-09 13:23:49 119
原创 spark实现将相同用户(key)所有item列表聚合
数据:用户id,itemid,分数代码:import org.apache.spark.{SparkConf, SparkContext}object userwatchlist { def main(args: Array[String]): Unit = { val conf = new SparkConf() //conf.setMaster("local...
2019-03-08 14:42:15 2240
原创 spark-sql相关实践
给定数据:orders表:product表:priors表:实现以下业务需求:1.统计product被购买的数量:val productCnt = priors.groupBy("product_id").count()2..统计product 被reordered的数量(再次购买)product_id做group by(聚合),统计一下sum(re...
2019-03-08 14:34:52 387
原创 spark-core学习笔记
1.spark和MapReduce比较:1)MR是批量计算框架,Spark-Core也是批量计算框架2)Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖)3)MR:多进程模型(缺点:每个任务启动时间长,所以不适合于低延迟的任务 优点:资源隔离,稳定性高,开发...
2019-03-07 21:43:55 169
原创 spark-streaming运行wordcount命令
spark-submit --class org.apache.spark.examples.streaming.HdfsWordCount \ --master yarn-cluster \/usr/local/src/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar\ hdfs:...
2019-03-07 16:43:40 770
原创 scala和spark实践wordcount
1.scala实现:数据The_Man_of_Property.txt:实现代码:结果:2.spark实现:数据:同上代码:结果:
2019-03-06 16:46:39 188
原创 spark实践cf(协同过滤)算法
import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBufferimport scala.math._object cf { def main(args: Array[String]): Unit = { val conf = new SparkConf()...
2019-03-06 15:38:28 231
原创 scala学习笔记
第一章.scala数据类型定义float类型:float类型转成double类型:判断是否是某个类型:懒加载lazy:第二章.scala函数实践:默认函数:和python的默认函数一样。命名函数:在函数调用的时候,可以通过名字将参数传入。可变参数:和python的语法一样条件表达式的赋值:循环表达式:to和...
2019-03-05 19:16:22 225
原创 zookeeper原理
Zookeeper虽然在配置文件中并没有指定master和slave但是,zookeeper工作时,是有一个节点为leader,其他则为followerLeader是通过内部的选举机制临时产生的(1)zookeeper的选举机制(全新集群paxos)以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就...
2019-03-03 17:11:33 91
原创 zookeeper结构和命令
1.zookeeper特性1、Zookeeper:一个leader,多个follower组成的集群2、全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的3、分布式读写,更新请求转发,由leader实施4、更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行5、数据更新原子性,一次数据更新要么成功,要么失...
2019-03-03 17:05:11 204
原创 朴素贝叶斯算法
理论:P(X|Y) = P(X,Y)/P(Y)P(X,Y) = P(X|Y)P(Y)P(X,Y) = P(Y|X)P(X)由此推导出朴素贝叶斯公式:P(X|Y) = P(Y|X)P(X)/P(Y)由此推导:p(yi|X) = P(yi)p(X|yi)/P(X)Y = 表示类别集合{军事0、财经1、体育2}yi = 表示第i个类别X = 一篇文章xi = 文章中的某...
2019-03-03 15:09:28 624 2
原创 sqoop的导入导出
1.Sqoop的数据导入在mysql中有一个库userdb中三个表:emp,emp_add和emp_contact表emp: id name deg salary dept 1201 gopal manager ...
2019-03-02 12:02:05 188
原创 sqoop安装
安装sqoop的前提是已经具备java和hadoop的环境1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/2、修改配置文件$ cd $SQOOP_HOME/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行:export HADOOP...
2019-03-02 11:51:16 96
原创 flume采集案例
1、采集目录到HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldir 下沉目标,即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel,可用file channel 也可以用内...
2019-03-02 11:47:20 190
原创 Flume的安装部署
1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上然后解压tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME2、根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)3、指定采集方...
2019-03-02 11:32:08 117
原创 kafka集成flume
理论知识:1、定位:分布式的消息队列系统,同时提供数据分布式缓存功能(默认7天)2、消息持久化到磁盘,达到O(1)访问速度,预读和后写,对磁盘的顺序访问(比内存访问还要快)3、Storm(分布式的实时计算框架) Kafka目标成为队列平台4、基本组件: Broker:每一台机器是一个Broker Producer:日志消息...
2019-03-02 11:26:31 274 3
原创 zookeeper集群搭建
zookeeper适合装在奇数台机器上!!!1.官网下载zookeeper2.解压:tar -zxvf zookeeper-3.4.5.tar.gz3.修改环境变量:ZOOKEEPER_HOME=/usr/local/src/zookeeper-3.4.11export ZOOKEEPER_HOMEPATH=$ZOOKEEPER_HOME/bin:$PATHexport PA...
2019-03-01 17:21:05 102
原创 协同过滤推荐算法
基于内容推荐的理论:1、基于内容推荐Content Based2、基于行为推荐Collaboration Filtering User Based Item Based基于内容推荐的优缺点:相关性计算:对于两个物品相似度进行打分排序:取top基于内容推荐的公式:基于协同推荐的理论:优缺点:基于协同过滤的思想:把基于...
2019-03-01 15:08:43 335
原创 中文分词之隐马尔可夫模型
隐马尔可夫模型理论知识:角色:收拾烂摊子的角色1) 生成方式2) 路径选择(viterbi算法)——>动态规划上篇文章讲到语言模型(1,2,3)二元语言模型 == 一阶马尔科夫模型马尔科夫模型有3类重要参数:1、状态2、初始概率初始概率计算方法举例: 假设有100篇文章, 时光荏苒 30篇 -> 30 / 100 今天 10篇...
2019-03-01 09:27:54 2396
Azkaban调度工具,里面包含Azkaban安装包及依赖包
2020-06-18
电商用户行为数据,来源于埋点数据
2020-06-18
电商项目里的广告投放数据
2020-06-17
apache-mahout-distribution-0.12.2.tar.gz
2020-02-10
spark-1.6.2-bin-hadoop2.6.zip.006
2020-02-05
spark-1.6.2-bin-hadoop2.6.zip.005
2020-02-05
spark-1.6.2-bin-hadoop2.6.zip.004
2020-02-05
spark-1.6.2-bin-hadoop2.6.zip.003
2020-02-05
spark-1.6.2-bin-hadoop2.6.zip.002
2020-02-05
spark-1.6.2-bin-hadoop2.6.tgz压缩分卷1
2020-02-05
推荐系统数据集(音乐评分数据集).rar
2019-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人