- 博客(57)
- 收藏
- 关注
原创 关于git的ssh免密步骤
1.打开安装好的见客户端2.点击Help,选中Show SSH Key 生成免密登录密码3.打开git项目网页,找到SSH Keys4.将生成的免密登录密码粘贴到git网页5.用IDEA直接拉取数据...
2019-07-07 10:22:41 246
原创 利用sqoop将存入在HDFS上的数据导入到MySQL中
首先要在mysql中创建表执行导出的命令: bin/sqoop export \ --connect jdbc:mysql://localhost:3306/库名 \ --username root \ --password 123 \ ---m 1 ...
2019-04-21 22:31:35 1988
原创 SQL的存储过程
使用存储过程: 存储过程可以改变SQL语句的运行性能,提高执行效率;还可以作为一种安全机制,使用户通过它来访问未被授权的表和视图。存储过程包括的创建、执行、查看、修改和删除 概念:存储过程是一组预先编译好的Transact-SQL语句。 存储过程为标准SQL增加了几种功能,这些功能正是SQL语句所缺少的,增加的功能详细说明 如下: ...
2019-04-21 00:11:17 3252
原创 Python学习第二天(if 与while)
if语句: 格式如下: if 要判断的条件: 条件成立时,要做的事情 ... else: 条件不成立时,要做的事情 ... # 1. 定义一个整数变量记录年龄age = int(inp...
2019-04-09 21:29:28 234
原创 Python入门
注释: 单行注释 # (为了保持格式规范,在#号后面加一个空格) 多行注释 """ """ 1.计算机的三大件: cpu:中央处理器,是一块超大规模的集成电路 负责处理数据/计算 内存: 临时存储数据(断电之后,数据会消失) 速度快 空...
2019-04-08 21:22:20 142
原创 sql开发注意点
1.在postgre中数据类型的转换:String =》textdouble =》double precision2.在postgre中给表及字段添加注释:comment on table 表名 is ' ' ;给表添加注释comment on column 表名.字段名 is ' ' ;给表中字段添加注释1.对于使用时间的函数:求两个时间差值datedi...
2019-03-22 09:26:29 299
原创 tableau数据可视化工具
教程地址 https://www.tableau.com/zh-cn/learn/traininghttps://mp.weixin.qq.com/s/E547hfDXV_w78O0d9qKBYg维度&度量是什么?维度:用来对数据进行分类的结构和观察业务情况的角度度量:用来描述业务情况的数值型多维数据...
2019-01-27 19:07:51 341
原创 三范式(面向对象,面向过程,面向函数)
package Batch2import org.apache.spark.sql.types._import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.sql.function...
2019-01-21 12:43:58 877
原创 新方式分析JSON(三范式)---
package Batch2import org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Dataset, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.funct...
2019-01-20 23:36:58 246
原创 zeroMq的使用
ZeroMQ简介:ZeroMQ是一种基于消息队列的多线程网络库.提供跨越多种传输协议(TCP:传输控制协议,当传输出现错误时,能自动予以纠正;UDP:用户数据包协议,当传输出现错误时会将错误信息丢弃;)的套接字,ZeroMQ是一个可伸缩层,可并行运行,分散在分布式系统间.zeroMQ在设计上主要采用了以下几个高能性的特征:1.无锁的队列模型2.批量处理的算法3.多核下的线程绑定,无...
2019-01-14 21:06:09 1316
原创 ALS算法(推荐系统)
测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...
2019-01-12 23:03:06 1484 1
原创 spark-MLlib
测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,103,2.0...
2019-01-12 21:55:14 621
原创 机器学习 hadoop-Mahout
协同过滤测试数据用户ID,物品ID,评分1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.04,104,4.54,106,4.05,101,4.05,102,3.05,10...
2019-01-11 23:23:14 277
原创 spark-mongoDB的Api
导入依赖<dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-connector_2.11</artifactId> <version>2.4.0</...
2019-01-11 19:24:19 605 4
原创 MongoDB入门
卸载:https://blog.csdn.net/benben_2015/article/details/83065478最新版MongoDB支持事务 : https://docs.mongodb.com/manual/core/transactions/本地安装mongoDB可参考官网 https://docs.mongodb.com/manual/tutorial/getting...
2019-01-11 14:32:14 177
原创 Hbase
HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2等关系型数据库不同,它是一个NOSQL数据库Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行存储的都是一些key-value对 Hbase的表中有列族的划分,用户可以指定将哪些kv插入哪个列族 Hbase的表在物理存储上,是按照...
2019-01-10 11:47:17 255
原创 zookeeper
zookeeper的集群部署上传安装包到集群服务器 解压 修改配置文件进入zookeeper的安装目录的conf目录cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5#数据存储到哪里dataD...
2019-01-10 09:54:30 169
原创 Flume
什么是flume?Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。其结构如下图所示:Flume是一个分布式、可靠、和高可用的海量日志采集、聚...
2019-01-09 21:16:41 261
原创 在IDEA关联Spark源码包,idea不能修改Spark源码,idea点进源码file is read only
转: https://blog.csdn.net/super__ren/article/details/85007474 第二种方案:(没测试过能不能修改源码)百度github点击进入 打开idea查看源代码
2019-01-08 10:22:19 1002
原创 redis事务模拟
package kafka;import redis.clients.jedis.Jedis;import redis.clients.jedis.Transaction;import utils.Jpools;import java.util.List;public class TestTransaction { public static void main(Stri...
2018-12-27 21:45:35 364
原创 Kafka-Straming-redis(offset)
package kafka2import java.utilimport org.apache.kafka.common.TopicPartitionimport utils.Jpoolsimport scala.collection.mutable._/** * 获取redis里面存储的偏移量数据 */object RedisOffset { def apply...
2018-12-27 20:30:17 565
原创 scalikeJDBC的使用
# MySQL exampledb.default.driver="com.mysql.jdbc.Driver"db.default.url="jdbc:mysql://hadoop01:3306/test?characterEncoding=UTF-8"db.default.user="root"db.default.password="123456"package scalik...
2018-12-27 19:41:50 613
原创 Streaming-Kafka-redis
package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools { private val poolConfig = new Gene...
2018-12-26 16:19:16 154
原创 模拟生成单词,消费单词
package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...
2018-12-26 15:19:51 321
原创 Streaming-kafka-mysql (scalikejdbc)
package kafkaimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.streaming.kafka010.OffsetRangeimport scal...
2018-12-26 11:53:24 287
原创 关于mysql连接不上问题
需要设置一下权限GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
2018-12-26 10:32:40 322
原创 SparkStreaming整合kafka入门
package kafkaimport com.typesafe.config.ConfigFactoryimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark...
2018-12-25 22:26:12 185
原创 kafka的简单介绍
kafka 分布式的消息存储服务 kafka 术语: broker:安装了kafka软件的一台机器 topic:kafka内部消息是分主题存放的 partition:在Topic的内部,数据是按照分区存放 leader: leader某个主题下的某个分区对外提供的读写服务的角色 follower:某个分区除...
2018-12-24 22:03:34 280
原创 kafka生产者和消费者
package kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import...
2018-12-24 21:28:52 233
原创 SparkStreaming窗口函数的应用
package windonimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 背景描述 * 在社交网(微博),电子商务(淘宝),搜索引擎(百度),股票...
2018-12-24 16:04:57 751
原创 SparkStreaming集成Spark Sql
package testimport java.sql.DriverManagerimport com.typesafe.config.ConfigFactoryimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport ...
2018-12-22 11:25:58 315
原创 将Streaming拉取的数据存入redis中
启动redis: ./redis-cli -h hadoop01package utilsimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.{Jedis, JedisPool}/** * 创建jedis连接池 */object Jpools {...
2018-12-21 23:00:23 675
原创 spark-core 综合练习(广播变量,join的使用)
package day04import org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Desc: * 数据说明: * users.dat ---UserID::Gender...
2018-12-20 18:56:50 1194
原创 SparkSql实现access中的ip与ip规则库的关联(方法二)
根据业务不同,一般都是需要自定义udf来操作package Testimport Test.SQLIIpLocation1.ip2Longimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSq...
2018-12-20 14:29:31 414
原创 SparkSql实现access中的ip与ip规则的关联(方法一)
package Testimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * 使用SparkSql实现access中的ip与ip规则的关联 * 前提条件:需要提前拿到全量的ip资源库信息,才可以生成DataFrame */object SQLIIpLocation1 { /** *...
2018-12-20 11:54:20 248
原创 Spark-sql 1.x版
package Test01import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{Dataset, SQLContext, SparkSession}/** * 如果使用DataFrame或SQL读取数据,先将非结构化...
2018-12-18 15:12:07 224
原创 kafka创建Topic出现的问题
replication factor: 3 larger than available brokers: 1[2018-12-15 07:25:43,621] ERROR org.apache.kafka.common.errors.InvalidReplicationFactorException: replication factor: 3 larger than available bro...
2018-12-17 11:50:02 4925
原创 初识SparkStreaming
写一个wordcount: linux命令: nc -lk 8888package day01import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkC...
2018-12-16 19:01:11 189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人