自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (18)
  • 收藏
  • 关注

原创 启动hadoop,只有两个从节点没有DataNode的异常

解决办法:在从节点的logs中查看日志如下:发现问题原因是主节点的VERSIONID和从节点不一样导致的解决办法:1.有重要数据情况下:把主节点的VERSIONID复制到从节点中2.没有重要数据情况下:把主节点的hdfs文件夹都删掉...

2019-03-31 18:04:03 2492

原创 启动hadoop集群报错The authenticity of host 'master (172.16.22.41)' can't be established. ECDSA key fingerp

解决办法:找到/etv/ssh/ssh_config在最后添加:StrictHostKeyChecking noUserKnownHostsFile /dev/null或者:ssh-o StrictHostKeyChecking=no192.168.0.xxx内网中非常信任的服务器之间的ssh连接...

2019-03-31 14:38:57 3508 1

原创 sklearn之三分类应用

用到的代码目录:1.入门demo:(先不关心具体数据是什么)python代码:lr_iris.pyimport numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Logisti...

2019-03-21 14:43:05 1394 1

原创 streaming通过sql对hbase写入数据

代码package com.badou.streamingimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client._import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContex...

2019-03-20 22:29:33 163

原创 streaming通过sql实现wordcount代码

代码package com.badou.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Time, Seconds, StreamingContext}i...

2019-03-20 22:21:44 181

原创 kafka通过spark-streaming往hbase里写数据

1.启动kafka:]# ./bin/kafka-server-start.sh config/server.properties2 查看topic list./bin/kafka-topics.sh --list --zookeeper localhost:21813.streaming代码:package com.badou.streamingimport org.ap...

2019-03-20 22:13:21 1083

原创 spark-sql实践

实践一:读取hdfs方式访问数据1.数据准备:2.spark-sq代码:package com.badou.sqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.Rowimport org.apache.spark.sql.types.{StringType, Str...

2019-03-20 21:49:08 144

原创 spark-streaming实践代码

实践1:wordcount1.1本地跑wordcount代码(无状态):package com.badou.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.storage.St...

2019-03-20 13:36:31 408

原创 storm报错 You're probably bundling the Storm jars with your topology jar.

java.lang.RuntimeException: Found multiple defaults.yaml resources. You're probably bundling the Storm jars with your topology jar.执行storm开发的jar包报错原因:storm-corejar包冲突解决办法...

2019-03-20 11:57:45 464

原创 shell常用命令

查看内存日志输出1>代表标准输出2>代表错误输出杀死MapReduce任务命令:kill spark任务进程命令:yarn application -kill application_1528548413583_0012查看端口号:统计第一列出现0和1的个数数组数据输出第二列两个文件相同的行拼接到相同行...

2019-03-20 11:54:57 173

原创 fume+kafka+storm+hbase的集成代码

1.启动hbase(前提启动了zookeeper和hdfs)查看进程:进入hbaseshell终端:查看hbase状态:查看表列表:查询new_music_table数据:scan 'new_music_table'2.启动kafka:3.编写storm代码:stormKafka.java:package stormHbase;...

2019-03-20 10:46:07 262

原创 flume+kafka+storm+中文分词

思想:flume发送,storm接受,调用webpy服务完成中文分词storm代码:stormKafka.java:package stormHttp;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.StormSubmitter;import bac...

2019-03-20 10:18:05 237

原创 flume+kafka+storm的集成

第一步:启动storm:1.1启动storm集群master: python bin/storm nimbus & python bin/storm ui & python bin/storm logviewer &slave: python bin/storm supervisor &...

2019-03-20 09:30:33 267

原创 storm打jar包执行报错问题You're probably bundling the Storm jars with your topology jar.

在storm项目中,打好jar包,到集群环境下运行报错:原因:在storm-core包中有defaults.yaml这个文件,因为默认maven打包的scope是compile,所以maven打包后,本地的storm-core包也被打入的jar,由于集群环境中,也存在storm-core包,所以会出现文件defaults.yaml重复的错误。解决办法:1、可以在打包后删除该文件...

2019-03-19 23:27:33 731

原创 softmax(多分类算法)实践

1.训练集规模:数据(第一行为维度,每个字段的名字):第二行为具体真是样本数据:第一列是标签,后面是特征(0-9的数字识别)样本格式(10分类,每个类别的样本数较均匀):图像:28*28:softmax代码:# encoding=utf8import sysimport mathimport pandas as pdimport numpy a...

2019-03-12 11:25:31 4545 5

原创 机器学习概述

机器学习概念:一些概念:python机器学习:词袋法(WOB):统计文本中各个单词出现的数量,使用单词出现的数量作为文本的特征向量;词袋法中使用单词作为特征,但是一般情况下单词比较多,所以可以考虑自定义词典作为特征,然后对文档中自定义文档中出现的单词的数量进行统计即可。召回率和精确率互斥,F...

2019-03-09 13:23:49 119

原创 spark-sql性能优化

2019-03-08 15:00:14 285

原创 spark实现将相同用户(key)所有item列表聚合

数据:用户id,itemid,分数代码:import org.apache.spark.{SparkConf, SparkContext}object userwatchlist { def main(args: Array[String]): Unit = { val conf = new SparkConf() //conf.setMaster("local...

2019-03-08 14:42:15 2240

原创 spark-sql相关实践

给定数据:orders表:product表:priors表:实现以下业务需求:1.统计product被购买的数量:val productCnt = priors.groupBy("product_id").count()2..统计product 被reordered的数量(再次购买)product_id做group by(聚合),统计一下sum(re...

2019-03-08 14:34:52 387

原创 spark-core学习笔记

1.spark和MapReduce比较:1)MR是批量计算框架,Spark-Core也是批量计算框架2)Spark相比MR速度快,MR作为一个job,在中间环节中结果是落地的(会经过磁盘交换),Spark计算过程中数据流转都是在内存的(减少了对HDFS的依赖)3)MR:多进程模型(缺点:每个任务启动时间长,所以不适合于低延迟的任务 优点:资源隔离,稳定性高,开发...

2019-03-07 21:43:55 169

原创 RDD的五大特性

2019-03-07 20:58:59 152

原创 spark-streaming运行wordcount命令

spark-submit --class org.apache.spark.examples.streaming.HdfsWordCount \ --master yarn-cluster \/usr/local/src/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar\ hdfs:...

2019-03-07 16:43:40 770

原创 scala和spark实践wordcount

1.scala实现:数据The_Man_of_Property.txt:实现代码:结果:2.spark实现:数据:同上代码:结果:

2019-03-06 16:46:39 188

原创 spark实践cf(协同过滤)算法

import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBufferimport scala.math._object cf { def main(args: Array[String]): Unit = { val conf = new SparkConf()...

2019-03-06 15:38:28 231

原创 scala学习笔记

第一章.scala数据类型定义float类型:float类型转成double类型:判断是否是某个类型:懒加载lazy:第二章.scala函数实践:默认函数:和python的默认函数一样。命名函数:在函数调用的时候,可以通过名字将参数传入。可变参数:和python的语法一样条件表达式的赋值:循环表达式:to和...

2019-03-05 19:16:22 225

原创 zookeeper原理

Zookeeper虽然在配置文件中并没有指定master和slave但是,zookeeper工作时,是有一个节点为leader,其他则为followerLeader是通过内部的选举机制临时产生的(1)zookeeper的选举机制(全新集群paxos)以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就...

2019-03-03 17:11:33 91

原创 zookeeper结构和命令

1.zookeeper特性1、Zookeeper:一个leader,多个follower组成的集群2、全局数据一致:每个server保存一份相同的数据副本,client无论连接到哪个server,数据都是一致的3、分布式读写,更新请求转发,由leader实施4、更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行5、数据更新原子性,一次数据更新要么成功,要么失...

2019-03-03 17:05:11 204

原创 朴素贝叶斯算法

理论:P(X|Y) = P(X,Y)/P(Y)P(X,Y) = P(X|Y)P(Y)P(X,Y) = P(Y|X)P(X)由此推导出朴素贝叶斯公式:P(X|Y) = P(Y|X)P(X)/P(Y)由此推导:p(yi|X) = P(yi)p(X|yi)/P(X)Y = 表示类别集合{军事0、财经1、体育2}yi = 表示第i个类别X = 一篇文章xi = 文章中的某...

2019-03-03 15:09:28 624 2

原创 sqoop的导入导出

1.Sqoop的数据导入在mysql中有一个库userdb中三个表:emp,emp_add和emp_contact表emp: id name deg salary dept 1201 gopal manager ...

2019-03-02 12:02:05 188

原创 sqoop安装

安装sqoop的前提是已经具备java和hadoop的环境1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/2、修改配置文件$ cd $SQOOP_HOME/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行:export HADOOP...

2019-03-02 11:51:16 96

原创 flume采集案例

1、采集目录到HDFS采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldir 下沉目标,即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel,可用file channel 也可以用内...

2019-03-02 11:47:20 190

原创 Flume的安装部署

1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境上传安装包到数据源所在节点上然后解压tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME2、根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)3、指定采集方...

2019-03-02 11:32:08 117

原创 kafka集成flume

理论知识:1、定位:分布式的消息队列系统,同时提供数据分布式缓存功能(默认7天)2、消息持久化到磁盘,达到O(1)访问速度,预读和后写,对磁盘的顺序访问(比内存访问还要快)3、Storm(分布式的实时计算框架) Kafka目标成为队列平台4、基本组件: Broker:每一台机器是一个Broker Producer:日志消息...

2019-03-02 11:26:31 274 3

原创 zookeeper集群搭建

zookeeper适合装在奇数台机器上!!!1.官网下载zookeeper2.解压:tar -zxvf zookeeper-3.4.5.tar.gz3.修改环境变量:ZOOKEEPER_HOME=/usr/local/src/zookeeper-3.4.11export ZOOKEEPER_HOMEPATH=$ZOOKEEPER_HOME/bin:$PATHexport PA...

2019-03-01 17:21:05 102

原创 协同过滤推荐算法

基于内容推荐的理论:1、基于内容推荐Content Based2、基于行为推荐Collaboration Filtering User Based Item Based基于内容推荐的优缺点:相关性计算:对于两个物品相似度进行打分排序:取top基于内容推荐的公式:基于协同推荐的理论:优缺点:基于协同过滤的思想:把基于...

2019-03-01 15:08:43 335

原创 中文分词之隐马尔可夫模型

隐马尔可夫模型理论知识:角色:收拾烂摊子的角色1) 生成方式2) 路径选择(viterbi算法)——>动态规划上篇文章讲到语言模型(1,2,3)二元语言模型 == 一阶马尔科夫模型马尔科夫模型有3类重要参数:1、状态2、初始概率初始概率计算方法举例: 假设有100篇文章, 时光荏苒 30篇 -> 30 / 100 今天 10篇...

2019-03-01 09:27:54 2396

scala-2.13.6.msi

scala安装包,版本2.13.6

2021-06-15

Azkaban调度工具,里面包含Azkaban安装包及依赖包

此Azkaban是在官网上下载后经过编译的,Azkaban安装包版本为3.56.0,包含了依赖包。只需解压即可使用。

2020-06-18

电商用户行为数据,来源于埋点数据

来源:电商用户行为埋点数据,包括:1.事件类型:install安装|launch启动|interactive交 互|page_enter_h5页面曝光|page_enter_native页面进入|exit退出等。2.行为类型:click点击|view浏览|slide滑动|input输入

2020-06-18

电商项目里的广告投放数据

电商广告投放信息表的数据,可以直接导入到hive中进行数据分析,数据表包含字段: 用户id', device_num string comment '设备号', device_type string comment '设备类型', os string comment '手机系统', os_version string comment '手机系统版本', manufacturer string comment '手机制造商', area_code string comment '地区编码', release_sid string comment '投放请求id', release_session string comment '投放会话id', release_sources string comment '投放渠道', release_params string comment '投放请求参数',ct bigint comment '创建时间'

2020-06-17

电商的用户商品店铺订单等基本业务数据

电商基本业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等

2020-06-17

本地hadoop支持文件.rar

文件解压后是hadoop.dll和winutils.exe,将这两个文件放入Hadoop的home下的bin目录下即可。

2020-06-04

apache-mahout-distribution-0.12.2.tar.gz

mahout是用来做大数据推荐系统和机器学习使用的框架,这个工具包官网下载非常慢,下载了一夜终于下载到了,刚好够上传的

2020-02-10

spark-1.6.2-bin-hadoop2.6.zip.006

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷6,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.005

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷5,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.004

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷4,共6卷

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.003

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷3

2020-02-05

spark-1.6.2-bin-hadoop2.6.zip.002

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来解压,有多个卷,此卷是卷2

2020-02-05

spark-1.6.2-bin-hadoop2.6.tgz压缩分卷1

这个工具包网上找了半天找不到,官网下载非常慢,下载了一夜终于下载到了,但是上传发现有限制,因此把它按分卷来压缩,有多个卷,此卷是卷1,共6卷

2020-02-05

大数据各生态组件及机器学习、深度学习总结.txt

八斗培训机构的大数据各生态组件及机器学习、深度学习总结

2019-09-03

推荐系统数据集(音乐评分数据集).rar

此内容包括:用户画像数据:user_profile.data,物品(音乐)元数据:music_meta,用户行为数据:user_watch_pref.sml。可以使用此数据做一个推荐系统的demo

2019-09-03

XJad—绿色版的java反编译工具

XJad是一个绿色版的java反编译工具,非常简单轻巧,解压即可使用。

2019-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除