2019年03月_曾牛

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创启动hadoop，只有两个从节点没有DataNode的异常

解决办法：在从节点的logs中查看日志如下：发现问题原因是主节点的VERSIONID和从节点不一样导致的解决办法：1.有重要数据情况下：把主节点的VERSIONID复制到从节点中2.没有重要数据情况下：把主节点的hdfs文件夹都删掉...

2019-03-31 18:04:03 2492

原创启动hadoop集群报错The authenticity of host 'master (172.16.22.41)' can't be established. ECDSA key fingerp

解决办法：找到/etv/ssh/ssh_config在最后添加：StrictHostKeyChecking noUserKnownHostsFile /dev/null或者：ssh-o StrictHostKeyChecking=no192.168.0.xxx内网中非常信任的服务器之间的ssh连接...

2019-03-31 14:38:57 3508 1

原创 sklearn之三分类应用

用到的代码目录：1.入门demo：（先不关心具体数据是什么）python代码：lr_iris.pyimport numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Logisti...

2019-03-21 14:43:05 1394 1

原创 streaming通过sql对hbase写入数据

代码package com.badou.streamingimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client._import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContex...

2019-03-20 22:29:33 163

原创 streaming通过sql实现wordcount代码

代码package com.badou.sqlimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Time, Seconds, StreamingContext}i...

2019-03-20 22:21:44 181

原创 kafka通过spark-streaming往hbase里写数据

1.启动kafka：]# ./bin/kafka-server-start.sh config/server.properties2 查看topic list./bin/kafka-topics.sh --list --zookeeper localhost:21813.streaming代码：package com.badou.streamingimport org.ap...

2019-03-20 22:13:21 1083

原创 spark-sql实践

实践一：读取hdfs方式访问数据1.数据准备：2.spark-sq代码：package com.badou.sqlimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.Rowimport org.apache.spark.sql.types.{StringType, Str...

2019-03-20 21:49:08 144

原创 spark-streaming实践代码

实践1：wordcount1.1本地跑wordcount代码（无状态）：package com.badou.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.storage.St...

2019-03-20 13:36:31 408

原创 storm报错 You're probably bundling the Storm jars with your topology jar.

java.lang.RuntimeException: Found multiple defaults.yaml resources. You're probably bundling the Storm jars with your topology jar.执行storm开发的jar包报错原因：storm-corejar包冲突解决办法...

2019-03-20 11:57:45 464

原创 shell常用命令

查看内存日志输出1>代表标准输出2>代表错误输出杀死MapReduce任务命令：kill spark任务进程命令：yarn application -kill application_1528548413583_0012查看端口号：统计第一列出现0和1的个数数组数据输出第二列两个文件相同的行拼接到相同行...

2019-03-20 11:54:57 173

原创 fume+kafka+storm+hbase的集成代码

1.启动hbase（前提启动了zookeeper和hdfs）查看进程：进入hbaseshell终端：查看hbase状态：查看表列表：查询new_music_table数据:scan 'new_music_table'2.启动kafka：3.编写storm代码：stormKafka.java:package stormHbase;...

2019-03-20 10:46:07 262

原创 flume+kafka+storm+中文分词

思想：flume发送，storm接受，调用webpy服务完成中文分词storm代码：stormKafka.java:package stormHttp;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.StormSubmitter;import bac...

2019-03-20 10:18:05 237

原创 flume+kafka+storm的集成

第一步：启动storm：1.1启动storm集群master： python bin/storm nimbus & python bin/storm ui & python bin/storm logviewer &slave： python bin/storm supervisor &...

2019-03-20 09:30:33 267

原创 storm打jar包执行报错问题You're probably bundling the Storm jars with your topology jar.

在storm项目中，打好jar包，到集群环境下运行报错：原因：在storm-core包中有defaults.yaml这个文件，因为默认maven打包的scope是compile，所以maven打包后，本地的storm-core包也被打入的jar，由于集群环境中，也存在storm-core包，所以会出现文件defaults.yaml重复的错误。解决办法：1、可以在打包后删除该文件...

2019-03-19 23:27:33 731

原创 softmax（多分类算法）实践

1.训练集规模：数据（第一行为维度，每个字段的名字）：第二行为具体真是样本数据：第一列是标签，后面是特征（0-9的数字识别）样本格式（10分类，每个类别的样本数较均匀）：图像：28*28：softmax代码：# encoding=utf8import sysimport mathimport pandas as pdimport numpy a...

2019-03-12 11:25:31 4545 5

原创机器学习概述

机器学习概念：一些概念：python机器学习：词袋法（WOB）：统计文本中各个单词出现的数量，使用单词出现的数量作为文本的特征向量；词袋法中使用单词作为特征，但是一般情况下单词比较多，所以可以考虑自定义词典作为特征，然后对文档中自定义文档中出现的单词的数量进行统计即可。召回率和精确率互斥，F...

2019-03-09 13:23:49 119

原创 spark实现将相同用户（key）所有item列表聚合

数据：用户id，itemid，分数代码：import org.apache.spark.{SparkConf, SparkContext}object userwatchlist { def main(args: Array[String]): Unit = { val conf = new SparkConf() //conf.setMaster("local...

2019-03-08 14:42:15 2240

原创 spark-sql相关实践

给定数据：orders表：product表：priors表：实现以下业务需求：1.统计product被购买的数量：val productCnt = priors.groupBy("product_id").count()2..统计product 被reordered的数量（再次购买）product_id做group by(聚合)，统计一下sum（re...

2019-03-08 14:34:52 387

原创 spark-core学习笔记

1.spark和MapReduce比较：1）MR是批量计算框架，Spark-Core也是批量计算框架2）Spark相比MR速度快，MR作为一个job，在中间环节中结果是落地的（会经过磁盘交换），Spark计算过程中数据流转都是在内存的（减少了对HDFS的依赖）3）MR：多进程模型（缺点：每个任务启动时间长，所以不适合于低延迟的任务优点：资源隔离，稳定性高，开发...

2019-03-07 21:43:55 169

原创 spark-streaming运行wordcount命令

spark-submit --class org.apache.spark.examples.streaming.HdfsWordCount \ --master yarn-cluster \/usr/local/src/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar\ hdfs:...

2019-03-07 16:43:40 770

原创 scala和spark实践wordcount

1.scala实现：数据The_Man_of_Property.txt：实现代码：结果：2.spark实现：数据：同上代码：结果：

2019-03-06 16:46:39 188

原创 spark实践cf（协同过滤）算法

import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ArrayBufferimport scala.math._object cf { def main(args: Array[String]): Unit = { val conf = new SparkConf()...

2019-03-06 15:38:28 231

原创 scala学习笔记

第一章.scala数据类型定义float类型：float类型转成double类型：判断是否是某个类型：懒加载lazy：第二章.scala函数实践：默认函数：和python的默认函数一样。命名函数：在函数调用的时候，可以通过名字将参数传入。可变参数：和python的语法一样条件表达式的赋值：循环表达式：to和...

2019-03-05 19:16:22 225

原创 zookeeper原理

Zookeeper虽然在配置文件中并没有指定master和slave但是，zookeeper工作时，是有一个节点为leader，其他则为followerLeader是通过内部的选举机制临时产生的（1）zookeeper的选举机制（全新集群paxos）以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就...

2019-03-03 17:11:33 91

原创 zookeeper结构和命令

1.zookeeper特性1、Zookeeper：一个leader，多个follower组成的集群2、全局数据一致：每个server保存一份相同的数据副本，client无论连接到哪个server，数据都是一致的3、分布式读写，更新请求转发，由leader实施4、更新请求顺序进行，来自同一个client的更新请求按其发送顺序依次执行5、数据更新原子性，一次数据更新要么成功，要么失...

2019-03-03 17:05:11 204

原创朴素贝叶斯算法

理论：P(X|Y) = P(X,Y)/P(Y)P(X,Y) = P(X|Y)P(Y)P(X,Y) = P(Y|X)P(X)由此推导出朴素贝叶斯公式：P(X|Y) = P(Y|X)P(X)/P(Y)由此推导：p(yi|X) = P(yi)p(X|yi)/P(X)Y = 表示类别集合{军事0、财经1、体育2}yi = 表示第i个类别X = 一篇文章xi = 文章中的某...

2019-03-03 15:09:28 624 2

原创 sqoop的导入导出

1.Sqoop的数据导入在mysql中有一个库userdb中三个表：emp,emp_add和emp_contact表emp: id name deg salary dept 1201 gopal manager ...

2019-03-02 12:02:05 188

原创 sqoop安装

安装sqoop的前提是已经具备java和hadoop的环境1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/2、修改配置文件$ cd $SQOOP_HOME/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行：export HADOOP...

2019-03-02 11:51:16 96

原创 flume采集案例

1、采集目录到HDFS采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素采集源，即source——监控文件目录 : spooldir 下沉目标，即sink——HDFS文件系统 : hdfs sink source和sink之间的传递通道——channel，可用file channel 也可以用内...

2019-03-02 11:47:20 190

原创 Flume的安装部署

1.Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上然后解压tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME2、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)3、指定采集方...

2019-03-02 11:32:08 117

原创 kafka集成flume

理论知识：1、定位：分布式的消息队列系统，同时提供数据分布式缓存功能（默认7天）2、消息持久化到磁盘，达到O(1)访问速度，预读和后写，对磁盘的顺序访问（比内存访问还要快）3、Storm（分布式的实时计算框架） Kafka目标成为队列平台4、基本组件： Broker：每一台机器是一个Broker Producer：日志消息...

2019-03-02 11:26:31 274 3

原创 zookeeper集群搭建

zookeeper适合装在奇数台机器上！！！1.官网下载zookeeper2.解压：tar -zxvf zookeeper-3.4.5.tar.gz3.修改环境变量：ZOOKEEPER_HOME=/usr/local/src/zookeeper-3.4.11export ZOOKEEPER_HOMEPATH=$ZOOKEEPER_HOME/bin:$PATHexport PA...

2019-03-01 17:21:05 102

原创协同过滤推荐算法

基于内容推荐的理论：1、基于内容推荐Content Based2、基于行为推荐Collaboration Filtering User Based Item Based基于内容推荐的优缺点：相关性计算：对于两个物品相似度进行打分排序：取top基于内容推荐的公式：基于协同推荐的理论：优缺点：基于协同过滤的思想：把基于...

2019-03-01 15:08:43 335

原创中文分词之隐马尔可夫模型

隐马尔可夫模型理论知识：角色：收拾烂摊子的角色1) 生成方式2) 路径选择（viterbi算法）——>动态规划上篇文章讲到语言模型（1,2,3）二元语言模型 == 一阶马尔科夫模型马尔科夫模型有3类重要参数：1、状态2、初始概率初始概率计算方法举例：假设有100篇文章，时光荏苒 30篇 -> 30 / 100 今天 10篇...

2019-03-01 09:27:54 2396

Azkaban调度工具，里面包含Azkaban安装包及依赖包

此Azkaban是在官网上下载后经过编译的，Azkaban安装包版本为3.56.0,包含了依赖包。只需解压即可使用。

2020-06-18

电商用户行为数据，来源于埋点数据

2020-06-18

电商广告投放信息表的数据，可以直接导入到hive中进行数据分析，数据表包含字段：用户id', device_num string comment '设备号', device_type string comment '设备类型', os string comment '手机系统', os_version string comment '手机系统版本', manufacturer string comment '手机制造商', area_code string comment '地区编码', release_sid string comment '投放请求id', release_session string comment '投放会话id', release_sources string comment '投放渠道', release_params string comment '投放请求参数',ct bigint comment '创建时间'

2020-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

scala-2.13.6.msi

Azkaban调度工具，里面包含Azkaban安装包及依赖包

电商用户行为数据，来源于埋点数据

电商项目里的广告投放数据

电商的用户商品店铺订单等基本业务数据

本地hadoop支持文件.rar

apache-mahout-distribution-0.12.2.tar.gz

spark-1.6.2-bin-hadoop2.6.zip.006

spark-1.6.2-bin-hadoop2.6.zip.005

spark-1.6.2-bin-hadoop2.6.zip.004

spark-1.6.2-bin-hadoop2.6.zip.003

spark-1.6.2-bin-hadoop2.6.zip.002

spark-1.6.2-bin-hadoop2.6.tgz压缩分卷1

大数据各生态组件及机器学习、深度学习总结.txt

推荐系统数据集（音乐评分数据集）.rar

XJad—绿色版的java反编译工具

空空如也