LJ2415-CSDN博客

原创关于git的ssh免密步骤

1.打开安装好的见客户端2.点击Help，选中Show SSH Key 生成免密登录密码3.打开git项目网页，找到SSH Keys4.将生成的免密登录密码粘贴到git网页5.用IDEA直接拉取数据...

2019-07-07 10:22:41 290

原创利用sqoop将存入在HDFS上的数据导入到MySQL中

首先要在mysql中创建表执行导出的命令： bin/sqoop export \ --connect jdbc:mysql://localhost:3306/库名 \ --username root \ --password 123 \ ---m 1 ...

2019-04-21 22:31:35 2037

原创 SQL的存储过程

使用存储过程：存储过程可以改变SQL语句的运行性能，提高执行效率；还可以作为一种安全机制，使用户通过它来访问未被授权的表和视图。存储过程包括的创建、执行、查看、修改和删除概念：存储过程是一组预先编译好的Transact-SQL语句。存储过程为标准SQL增加了几种功能，这些功能正是SQL语句所缺少的，增加的功能详细说明如下： ...

2019-04-21 00:11:17 3376

原创 Python学习第二天（if 与while）

if语句：格式如下： if 要判断的条件：条件成立时，要做的事情 ... else：条件不成立时，要做的事情 ... # 1. 定义一个整数变量记录年龄age = int(inp...

2019-04-09 21:29:28 282

原创 Python入门

注释：单行注释 # （为了保持格式规范，在#号后面加一个空格）多行注释 """ """ 1.计算机的三大件： cpu：中央处理器，是一块超大规模的集成电路负责处理数据/计算内存：临时存储数据（断电之后，数据会消失）速度快空...

2019-04-08 21:22:20 178

原创 sql开发注意点

1.在postgre中数据类型的转换：String =》textdouble =》double precision2.在postgre中给表及字段添加注释：comment on table 表名 is ' ' ；给表添加注释comment on column 表名.字段名 is ' ' ；给表中字段添加注释1.对于使用时间的函数：求两个时间差值datedi...

2019-03-22 09:26:29 340

原创 tableau数据可视化工具

教程地址 https://www.tableau.com/zh-cn/learn/traininghttps://mp.weixin.qq.com/s/E547hfDXV_w78O0d9qKBYg维度&度量是什么？维度：用来对数据进行分类的结构和观察业务情况的角度度量：用来描述业务情况的数值型多维数据...

2019-01-27 19:07:51 376

原创三范式（面向对象，面向过程，面向函数）

package Batch2import org.apache.spark.sql.types._import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.sql.function...

2019-01-21 12:43:58 940

原创新方式分析JSON(三范式)---

package Batch2import org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.funct...

2019-01-20 23:36:58 283

原创关于IDEA中maven项目无法new scala类的问题

点击File进入到Project Structure手动添加scala即可

2019-01-16 17:58:35 684

原创 zeroMq的使用

ZeroMQ简介:ZeroMQ是一种基于消息队列的多线程网络库.提供跨越多种传输协议(TCP:传输控制协议,当传输出现错误时,能自动予以纠正;UDP:用户数据包协议,当传输出现错误时会将错误信息丢弃;)的套接字,ZeroMQ是一个可伸缩层,可并行运行,分散在分布式系统间.zeroMQ在设计上主要采用了以下几个高能性的特征:1.无锁的队列模型2.批量处理的算法3.多核下的线程绑定,无...

2019-01-14 21:06:09 1481

原创 ALS算法(推荐系统)

测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...

2019-01-12 23:03:06 1534 1

原创 spark-MLlib

测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...

2019-01-12 21:55:14 677

原创机器学习 hadoop-Mahout

协同过滤测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,10...

2019-01-11 23:23:14 325

原创 spark-mongoDB的Api

导入依赖<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>2.4.0</...

2019-01-11 19:24:19 665 4

原创 MongoDB入门

卸载:https://blog.csdn.net/benben_2015/article/details/83065478最新版MongoDB支持事务 : https://docs.mongodb.com/manual/core/transactions/本地安装mongoDB可参考官网 https://docs.mongodb.com/manual/tutorial/getting...

2019-01-11 14:32:14 210

原创 Hbase

HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2等关系型数据库不同，它是一个NOSQL数据库Hbase的表模型与关系型数据库的表模型不同： Hbase的表没有固定的字段定义； Hbase的表中每行存储的都是一些key-value对 Hbase的表中有列族的划分，用户可以指定将哪些kv插入哪个列族 Hbase的表在物理存储上，是按照...

2019-01-10 11:47:17 294

原创 zookeeper

zookeeper的集群部署上传安装包到集群服务器解压修改配置文件进入zookeeper的安装目录的conf目录cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5#数据存储到哪里dataD...

2019-01-10 09:54:30 199

原创 Flume

什么是flume?Apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。其结构如下图所示：Flume是一个分布式、可靠、和高可用的海量日志采集、聚...

2019-01-09 21:16:41 315

转载 sql四大排序函数

转 https://www.cnblogs.com/52XF/p/4209211.html

2019-01-08 16:08:28 546

原创在IDEA关联Spark源码包，idea不能修改Spark源码，idea点进源码file is read only

转: https://blog.csdn.net/super__ren/article/details/85007474 第二种方案:(没测试过能不能修改源码)百度github点击进入打开idea查看源代码

2019-01-08 10:22:19 1061

原创 redis事务模拟

package kafka;import redis.clients.jedis.Jedis;import redis.clients.jedis.Transaction;import utils.Jpools;import java.util.List;public class TestTransaction { public static void main(Stri...

2018-12-27 21:45:35 404

原创 Kafka-Straming-redis(offset)

package kafka2import java.utilimport org.apache.kafka.common.TopicPartitionimport utils.Jpoolsimport scala.collection.mutable._/** * 获取redis里面存储的偏移量数据 */object RedisOffset { def apply...

2018-12-27 20:30:17 609

原创 scalikeJDBC的使用

# MySQL exampledb.default.driver="com.mysql.jdbc.Driver"db.default.url="jdbc:mysql://hadoop01:3306/test?characterEncoding=UTF-8"db.default.user="root"db.default.password="123456"package scalik...

2018-12-27 19:41:50 644

原创 Streaming-Kafka-redis

package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools { private val poolConfig = new Gene...

2018-12-26 16:19:16 181

原创模拟生成单词,消费单词

package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...

2018-12-26 15:19:51 350

原创 Streaming-kafka-mysql (scalikejdbc)

package kafkaimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.streaming.kafka010.OffsetRangeimport scal...

2018-12-26 11:53:24 320

原创关于mysql连接不上问题

需要设置一下权限GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;

2018-12-26 10:32:40 376

原创 SparkStreaming整合kafka入门

package kafkaimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark...

2018-12-25 22:26:12 211

原创 kafka的简单介绍

kafka 分布式的消息存储服务 kafka 术语: broker:安装了kafka软件的一台机器 topic:kafka内部消息是分主题存放的 partition:在Topic的内部,数据是按照分区存放 leader: leader某个主题下的某个分区对外提供的读写服务的角色 follower:某个分区除...

2018-12-24 22:03:34 321

原创 kafka生产者和消费者

package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...

2018-12-24 21:28:52 274

原创 SparkStreaming窗口函数的应用

package windonimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 背景描述 * 在社交网(微博),电子商务(淘宝),搜索引擎(百度),股票...

2018-12-24 16:04:57 802

原创 SparkStreaming集成Spark Sql

package testimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport ...

2018-12-22 11:25:58 365

原创将Streaming拉取的数据存入redis中

启动redis: ./redis-cli -h hadoop01package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools {...

2018-12-21 23:00:23 728

原创 spark-core 综合练习(广播变量,join的使用)

package day04import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Desc: * 数据说明： * users.dat ---UserID::Gender...

2018-12-20 18:56:50 1234

原创 SparkSql实现access中的ip与ip规则库的关联(方法二)

根据业务不同,一般都是需要自定义udf来操作package Testimport Test.SQLIIpLocation1.ip2Longimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSq...

2018-12-20 14:29:31 449

原创 SparkSql实现access中的ip与ip规则的关联(方法一)

package Testimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSql实现access中的ip与ip规则的关联 * 前提条件：需要提前拿到全量的ip资源库信息，才可以生成DataFrame */object SQLIIpLocation1 { /** *...

2018-12-20 11:54:20 283

原创 Spark-sql 1.x版

package Test01import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{Dataset, SQLContext, SparkSession}/** * 如果使用DataFrame或SQL读取数据,先将非结构化...

2018-12-18 15:12:07 263

replication factor: 3 larger than available brokers: 1[2018-12-15 07:25:43,621] ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: replication factor: 3 larger than available bro...

2018-12-17 11:50:02 5031

原创初识SparkStreaming

写一个wordcount: linux命令: nc -lk 8888package day01import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkC...

2018-12-16 19:01:11 208

空空如也

空空如也