Pandas 数据清洗

处理空值 删除 替换 填充 重复值 异常值

2019-07-10 22:34:36

阅读数 25

评论数 0

Oauth2+JWT 加密token

JWT 对称加密 JWT将 相关信息放在 令牌里 jwt全称 JSON Web Token。这个实现方式不用管如何进行存储(内存或磁盘), 因为它可以把相关信息数据编码存放在令牌里 。JwtTokenStore 不会保存任何数据, 但是它在转换令牌值以及授权信息方面与 DefaultTokenSe...

2019-07-08 19:26:32

阅读数 60

评论数 0

Docker基本命令

docker run ubuntu:15.10 /bin/echo "Hello world" docker run -> 创建新容器实例的指令 ubuntu:15.10 -> 镜像名字,本机不存在便在 dockerhub上查找下载 /bin/ec...

2019-06-23 15:15:12

阅读数 12

评论数 0

第一个Flink程序 词频统计

maven创建 Flink 应用程序,通过端口获取实时输入的字符串,利用Flink统计单词频率并打印出来 public static void main(String[] args) throws Exception { StreamExecutionEnvironment env ...

2019-06-21 12:38:45

阅读数 43

评论数 0

Flink Java操作Kafka

0.8 kafka版本 2.11 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connec...

2019-06-21 11:12:24

阅读数 47

评论数 0

Cassandra与SpringBatch批处理

使用SpringBatch框架将海量数据文件中数据批量导入Cassandra数据库中 SpringBatch通过springbatch.xml中 batch:job标签具体定义job工作内容 step job内步骤项 这里只需要一个就可以 tasklet 任务集,可以指定线程池来执行 c...

2019-05-19 15:33:52

阅读数 47

评论数 0

经典数据结构 B树B+树和数据库索引

数据库索引 索引简单讲 就是数据库本身数据结构不适合各种搜索算法 也就是数据库提供给搜索算法的数据结构 Hash索引 B+ 索引 关于数据库索引参考以下博客 数据库索引详解 为啥不用红黑树等结构,偏要用B+树做索引 B树 B+树的存在就是为了提升数据库索引速度 必须要提到 局部性原理与磁盘预读...

2019-05-18 14:23:06

阅读数 42

评论数 0

红黑树

啥是虹黑树 一种自平衡二叉查找树 特性:节点是红色或黑色 根节点一定是黑色 每个叶节点都是黑色的空节点(NIL节点) 每个红节点的两个子节点都是黑色的(从每个叶子到跟的所有路径上不能有两个连续的红节点)(即对于层来说除了NIL节点,红黑节点是交替的,第一层是黑节点那么其下一层肯定都是红节点,反之一...

2019-05-18 13:54:05

阅读数 45

评论数 0

SparkStream实时分析统计展示共享单车使用人数

数据集 hour.csv instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt 1,2011-01-01,1,0...

2019-05-17 19:30:20

阅读数 1586

评论数 1

Zookeeper选举机制

节点状态 LOOKING LEADING FOLLOWERING OBSERVE zxid(zookeeper事务id): zookeeper状态每次改变都会收到一个不同全局唯一的zxid,删除节点,创建节点都会使zookeeper状态改变,zxid不断递增 leader服务器选取规则: ...

2019-05-12 14:24:45

阅读数 12

评论数 0

Java 操作kafka

<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10&l...

2019-05-12 14:05:06

阅读数 25

评论数 0

Scala 操作Kafka

Spark支持Kafka 网上这块资料比较多,不再赘述 1.spark-streaming-kafka-0-8_2.11-2.1.0.jar 2.kafka 的jar 包 3.jar存放路径 spark/jars/kafka 生产者 import org.apache.spark.str...

2019-05-12 13:48:52

阅读数 35

评论数 0

Python 操作kafka

Python3 安装模块 pip3 install kafka-python 启动kafka 消费者 from kafka import KafkaConsumer #consumer=KafkaConsumer('result',group_id='consumer-2017101...

2019-05-12 13:32:37

阅读数 28

评论数 0

Kafka简单安装与测试

Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker Topic 每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产...

2019-05-04 18:00:38

阅读数 563

评论数 0

SparkStream流处理

输入流 文件输入流 // spark streaming 文件输入流 // val inputFile = "file:///usr/local/spark/mycode/wordcount/word.txt" val inputFile = &quo...

2019-05-04 09:12:27

阅读数 56

评论数 0

Hadoop修改host名以后Hive无法访问

配置信息会被写死在hive的DBS和SBS表里,只要进入mysql,打到DBS和SDS,把地址修改为新的

2019-05-03 21:00:41

阅读数 12

评论数 0

Spark远程连接Hive数据源

下载winutils.exe,放到HADOOP_HOME/bin下,模拟linux环境 scala文件 // 连接hive数据仓库 val sparkSession = SparkSession.builder().appName("HiveCaseJob")....

2019-05-03 21:00:06

阅读数 44

评论数 0

Hadoop与Spark基本原理

Hadoop Spark Spark 和 Hadoop区别和联系 Hadoop 的 HDFS Hadoop 的 MapReduce Spark 宽依赖和窄依赖 Spark RDD运行过程 Spark RDD阶段划分 Hadoop Hadoop是Apache软件基金旗下的一个开源分布式计算平...

2019-05-03 15:08:46

阅读数 25

评论数 0

Scala练习集---RDD编程

创建RDD 读取外部数据集 SparkContext.parallelize()方法在集合上创建 本地文件 scala> val lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt"...

2019-04-25 07:54:52

阅读数 26

评论数 0

Scala练习--WoldCount词频统计

启动Hadoop HDFS hadoop@dhjvirtualmachine:/usr/local/hadoop/sbin$ ./start-dfs.sh 创建数据文件 hadoop@dhjvirtualmachine:/usr/local/spark/mycode$ mkdir word...

2019-04-25 07:53:40

阅读数 26

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭