自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 关于git的ssh免密步骤

1.打开安装好的见客户端2.点击Help,选中Show SSH Key 生成免密登录密码3.打开git项目网页,找到SSH Keys4.将生成的免密登录密码粘贴到git网页5.用IDEA直接拉取数据...

2019-07-07 10:22:41 227

原创 利用sqoop将存入在HDFS上的数据导入到MySQL中

首先要在mysql中创建表执行导出的命令: bin/sqoop export \ --connect jdbc:mysql://localhost:3306/库名 \ --username root \ --password 123 \ ---m 1 ...

2019-04-21 22:31:35 1964

原创 SQL的存储过程

使用存储过程: 存储过程可以改变SQL语句的运行性能,提高执行效率;还可以作为一种安全机制,使用户通过它来访问未被授权的表和视图。存储过程包括的创建、执行、查看、修改和删除 概念:存储过程是一组预先编译好的Transact-SQL语句。 存储过程为标准SQL增加了几种功能,这些功能正是SQL语句所缺少的,增加的功能详细说明 如下: ...

2019-04-21 00:11:17 3018

原创 Python学习第二天(if 与while)

if语句: 格式如下: if 要判断的条件: 条件成立时,要做的事情 ... else: 条件不成立时,要做的事情 ... # 1. 定义一个整数变量记录年龄age = int(inp...

2019-04-09 21:29:28 215

原创 Python入门

注释: 单行注释 # (为了保持格式规范,在#号后面加一个空格) 多行注释 """ """ 1.计算机的三大件: cpu:中央处理器,是一块超大规模的集成电路 负责处理数据/计算 内存: 临时存储数据(断电之后,数据会消失) 速度快 空...

2019-04-08 21:22:20 125

原创 sql开发注意点

1.在postgre中数据类型的转换:String =》textdouble =》double precision2.在postgre中给表及字段添加注释:comment on table 表名 is ' ' ;给表添加注释comment on column 表名.字段名 is ' ' ;给表中字段添加注释1.对于使用时间的函数:求两个时间差值datedi...

2019-03-22 09:26:29 267

原创 tableau数据可视化工具

教程地址 https://www.tableau.com/zh-cn/learn/traininghttps://mp.weixin.qq.com/s/E547hfDXV_w78O0d9qKBYg维度&度量是什么?维度:用来对数据进行分类的结构和观察业务情况的角度度量:用来描述业务情况的数值型多维数据...

2019-01-27 19:07:51 323

原创 三范式(面向对象,面向过程,面向函数)

package Batch2import org.apache.spark.sql.types._import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.sql.function...

2019-01-21 12:43:58 857

原创 新方式分析JSON(三范式)---

 package Batch2import org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.funct...

2019-01-20 23:36:58 235

原创 关于IDEA中maven项目无法new scala类的问题

点击File进入到Project Structure手动添加scala即可

2019-01-16 17:58:35 629

原创 zeroMq的使用

ZeroMQ简介:ZeroMQ是一种基于消息队列的多线程网络库.提供跨越多种传输协议(TCP:传输控制协议,当传输出现错误时,能自动予以纠正;UDP:用户数据包协议,当传输出现错误时会将错误信息丢弃;)的套接字,ZeroMQ是一个可伸缩层,可并行运行,分散在分布式系统间.zeroMQ在设计上主要采用了以下几个高能性的特征:1.无锁的队列模型2.批量处理的算法3.多核下的线程绑定,无...

2019-01-14 21:06:09 1244

原创 ALS算法(推荐系统)

测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...

2019-01-12 23:03:06 1446 1

原创 spark-MLlib

测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...

2019-01-12 21:55:14 588

原创 机器学习 hadoop-Mahout

协同过滤测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,10...

2019-01-11 23:23:14 255

原创 spark-mongoDB的Api

导入依赖<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>2.4.0</...

2019-01-11 19:24:19 578 4

原创 MongoDB入门

卸载:https://blog.csdn.net/benben_2015/article/details/83065478最新版MongoDB支持事务 : https://docs.mongodb.com/manual/core/transactions/本地安装mongoDB可参考官网  https://docs.mongodb.com/manual/tutorial/getting...

2019-01-11 14:32:14 163

原创 Hbase

HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2等关系型数据库不同,它是一个NOSQL数据库Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行存储的都是一些key-value对 Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族 Hbase的表在物理存储上,是按照...

2019-01-10 11:47:17 214

原创 zookeeper

zookeeper的集群部署上传安装包到集群服务器 解压 修改配置文件进入zookeeper的安装目录的conf目录cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5#数据存储到哪里dataD...

2019-01-10 09:54:30 153

原创 Flume

什么是flume?Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。其结构如下图所示:Flume是一个分布式、可靠、和高可用的海量日志采集、聚...

2019-01-09 21:16:41 241

转载 sql四大排序函数

转  https://www.cnblogs.com/52XF/p/4209211.html

2019-01-08 16:08:28 446

原创 在IDEA关联Spark源码包,idea不能修改Spark源码,idea点进源码file is read only

转:   https://blog.csdn.net/super__ren/article/details/85007474 第二种方案:(没测试过能不能修改源码)百度github点击进入 打开idea查看源代码

2019-01-08 10:22:19 964

原创 redis事务模拟

package kafka;import redis.clients.jedis.Jedis;import redis.clients.jedis.Transaction;import utils.Jpools;import java.util.List;public class TestTransaction { public static void main(Stri...

2018-12-27 21:45:35 347

原创 Kafka-Straming-redis(offset)

package kafka2import java.utilimport org.apache.kafka.common.TopicPartitionimport utils.Jpoolsimport scala.collection.mutable._/** * 获取redis里面存储的偏移量数据 */object RedisOffset { def apply...

2018-12-27 20:30:17 540

原创 scalikeJDBC的使用

# MySQL exampledb.default.driver="com.mysql.jdbc.Driver"db.default.url="jdbc:mysql://hadoop01:3306/test?characterEncoding=UTF-8"db.default.user="root"db.default.password="123456"package scalik...

2018-12-27 19:41:50 588

原创 Streaming-Kafka-redis

package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools { private val poolConfig = new Gene...

2018-12-26 16:19:16 137

原创 模拟生成单词,消费单词

package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...

2018-12-26 15:19:51 301

原创 Streaming-kafka-mysql (scalikejdbc)

package kafkaimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.streaming.kafka010.OffsetRangeimport scal...

2018-12-26 11:53:24 270

原创 关于mysql连接不上问题

需要设置一下权限GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

2018-12-26 10:32:40 302

原创 SparkStreaming整合kafka入门

package kafkaimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark...

2018-12-25 22:26:12 165

原创 kafka的简单介绍

kafka 分布式的消息存储服务    kafka 术语:        broker:安装了kafka软件的一台机器        topic:kafka内部消息是分主题存放的        partition:在Topic的内部,数据是按照分区存放        leader: leader某个主题下的某个分区对外提供的读写服务的角色        follower:某个分区除...

2018-12-24 22:03:34 255

原创 kafka生产者和消费者

package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...

2018-12-24 21:28:52 208

原创 SparkStreaming窗口函数的应用

package windonimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 背景描述 * 在社交网(微博),电子商务(淘宝),搜索引擎(百度),股票...

2018-12-24 16:04:57 731

原创 SparkStreaming集成Spark Sql

package testimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport ...

2018-12-22 11:25:58 293

原创 将Streaming拉取的数据存入redis中

启动redis:   ./redis-cli -h hadoop01package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools {...

2018-12-21 23:00:23 649

原创 spark-core 综合练习(广播变量,join的使用)

package day04import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Desc: * 数据说明: * users.dat ---UserID::Gender...

2018-12-20 18:56:50 1173

原创 SparkSql实现access中的ip与ip规则库的关联(方法二)

根据业务不同,一般都是需要自定义udf来操作package Testimport Test.SQLIIpLocation1.ip2Longimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSq...

2018-12-20 14:29:31 391

原创 SparkSql实现access中的ip与ip规则的关联(方法一)

package Testimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSql实现access中的ip与ip规则的关联 * 前提条件:需要提前拿到全量的ip资源库信息,才可以生成DataFrame */object SQLIIpLocation1 { /** *...

2018-12-20 11:54:20 213

原创 Spark-sql 1.x版

package Test01import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{Dataset, SQLContext, SparkSession}/** * 如果使用DataFrame或SQL读取数据,先将非结构化...

2018-12-18 15:12:07 198

原创 kafka创建Topic出现的问题

replication factor: 3 larger than available brokers: 1[2018-12-15 07:25:43,621] ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: replication factor: 3 larger than available bro...

2018-12-17 11:50:02 4830

原创 初识SparkStreaming

写一个wordcount:    linux命令: nc -lk 8888package day01import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkC...

2018-12-16 19:01:11 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除