SDUTyangkun-CSDN博客

原创 2019-北邮复试机试

1、给定a,b,c,d四个数，找其中最小。2、给定n,m 。判断n，m之间闰年个数。3、链表操作，删除，转置，查询。数组模拟或vector 即可4、裸的最小生成树。图都不用你建。今年不准带资料，可能导致题型偏简单，4a不少。未来的你们加油~...

2019-03-29 15:32:52 2714

编译kafka 0.10.1源码1、工具：a) jdk1.8 b) gradle4.10 (注意 5.x版本不行) https://blog.csdn.net/andwey/article/details/92800650 c) idea2、下载kafkahttp://kafka.apache.org/downloads下载 kafka-0.10.1.0-src.tgz (asc, md5)3、配置#第一处buildscript { repositor

2021-03-01 19:24:02 395

原创 SQuirreL连接ambari平台下phoenix 报java.util.concurrent.TimeoutException

1、点击报错的日志2、看到报错日志有这么一条消息3、查看zookeeper里边果然没有4、登陆ambari修改hbase的配置<property> <name>zookeeper.znode.parent</name> <value>/hbase-xxx</value> </property>5、修改完后重新启动hbase，再次查看zookeeper，发现hbase的存在6、再次重新连接squ

2021-02-08 17:32:24 419

原创 scala 读取配置文件

scala 读取配置文件package com.bupt.gmall2020.realtime.utilimport java.io.InputStreamReaderimport java.util.Propertiesimport org.apache.kafka.common.serialization.StringDeserializer/** * @author yangkun * @date 2021/2/1 14:24 * @version 1.0 */object

2021-02-06 20:06:59 843 1

原创 1、searchResult.getTotal()查询es7中报java.lang.UnsupportedOperationException: JsonObject错误

1、searchResult.getTotal()查询es7中报java.lang.UnsupportedOperationException: JsonObject利用jestclient查询es7中数据改方法会出现bug,这是源码的问题因为es7返回json串的格式出现了一些改变ES V7 以前格式hits: {total: 16561096}ES7 现在返回格式hits: {total: {value: 49}}jestClient的SearchResult的getTo

2021-02-05 14:27:02 2421

原创 docker安装单机es和kibana以及基础练习

docker安装单机es和kibana1、拉取镜像#镜像sudo docker pull elasticsearch:7.4.2#kibanasudo docker pull kibana:7.4.22、启动容器sudo docker run -di --name=es -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" docker.elastic.co/elasticsearch/elasticsearch:7.4.2s

2021-01-28 20:46:44 216

原创 sparkStreaming 之 kafka源

1、recevie模式0.8版本之前有这中模式，1.0后取消了这种模式package day10import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache

2020-11-07 13:34:59 211

原创 spark sql项目实战(spark sql操作hive表)

各区域热门商品Top31、需求分析这里的热门商品是从点击量的维度来看的，计算各个区域前三大热门商品，并备注上每个商品在主要城市中的分布比例，超过两个城市用其他显示。例如：地区商品名称点击次数城市备注华北商品A 100000 北京21.2%，天津13.2%，其他65.6%华北商品P 80200 北京63.0%，太原10%，其他27.0%华北商品M 40000 北京63.0%，太原10%，其他27.0%东北商品J 92000 大连28%，辽宁17.0%，其他 55.0%2、思路分

2020-10-31 20:57:41 1328

原创 spark 读取hive表

idea 通过spark sql代码操作hive表1、依赖pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0

2020-10-31 20:42:27 1266 1

原创 spark-sql 写入mysql

package day09import java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.execution.datasources.jdbc.JDBCOptionsimport org.apache.spark.sql.{DataFrame, Dataset, SaveMode, SparkSession}/**

2020-10-29 10:07:09 324

原创 spark sql 从mysql读数据

package day09import java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSession}/** * @author yangkun * @date 2020/10/29 9:24 * @version 1.0 */object Spark01_SQL_MySQL { def main(args: Array[Strin

2020-10-29 09:50:01 202

原创 spark:Top10热门品类中每个品类的Top10活跃Session统计

来自尚硅谷教程需求描述对于排名前10的品类，分别获取每个品类点击次数排名前10的sessionId。（注意: 这里我们只关注点击次数，不关心下单和支付次数）这个就是说，对于top10的品类，每一个都要获取对它点击次数排名前10的sessionId。这个功能，可以让我们看到，对某个用户群体最感兴趣的品类，各个品类最感兴趣最典型的用户的session的行为。分析思路 通过需求1，获取TopN热门品类的id 将原始数据进行过滤（1.保留热门品类 2.只保留点击操作） 对session的点击数

2020-10-25 21:08:29 1005

原创 ArrayList源码分析

ArrayList源码分析ctrl + 7 -------> 构造方法构造方法 public ArrayList(int initialCapacity) { if (initialCapacity > 0) { this.elementData = new Object[initialCapacity]; } else if (initialCapacity == 0) { this.elementD

2020-10-22 10:43:55 179

原创 spark之热门商品TopN

需求 TopN来自尚硅谷视频案例需求说明：品类是指产品的分类，大型电商网站品类分多级，咱们的项目中品类只有一级，不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。鞋点击数下单数支付数衣服点击数下单数支付数生活用品点击数下单数支付数例如，综合排名=点击数20%+下单数30%+支付数*50%本项目需求优化为：先按照点击数排名，靠前的就排名高；如果点击数相同，再比较下单数；下单数再相同，就比较支付数。分别统计每个品类点击的次数，下

2020-10-21 22:00:40 527

原创 spark 之广播变量

spark 之广播变量广播变量：分布式共享只读变量。在多个并行操作中（Executor）使用同一个变量，Spark默认会为每个任务(Task)分别发送，这样如果共享比较大的对象，会占用很大工作节点的内存。广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。1）使用广播变量步骤：（1）通过对一个类型T的对象调用SparkCon

2020-10-20 22:03:37 444

原创 spark 累加器

累加器累加器：分布式共享只写变量。（Task和Task之间不能读数据）累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用 filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。系统累加器package com.bupt.day06import org.apache.spark.

2020-10-20 21:23:25 318

原创 RDD实战电影点评系统案例

下面的案例中使用的是用户观看电影和点评电影的行为数据，数据来源与网络上的公开数据共有三个数据文件。users.datUserID::Gender::Age::Occupation::Zip-coderatings.datUserID::MovieID::Rating::Timestampmovies.datMovieID::Title::Genrespackage chapte...

2019-12-03 15:22:48 704

原创 spark读取Hbase

方式一package com.bupt.spark.hbase.readhbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.{TableIn...

2019-10-21 13:34:49 477

原创 spark写入Hbase

方式一：package com.bupt.spark.hbase//1 table putimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase._import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.util...

2019-10-20 16:23:26 266

原创多线程基础五：线程池创建多线程

package com.bupt.ThreadPoolDemo;/** * 创建线程方式四：线程池 * 好处： * 1、提高响应速度，减少了创建新线程的时间 * 2、降低资源消耗，重复利用线程池中的线程，不需要每次都创建。 * 3、便于线程管理 * corePoolSize：核心池的大小 * maximumPool: 最大线程数 * keepAliveTime: 线程没有任务时最...

2019-10-08 15:20:18 335

原创多线程基础四线程通信

package com.bupt.exer;/** * 通信样例，两个线程交替打印1-100的数字 *涉及到的方法 * wait（），一旦执行此方法，当前线程就会进入阻塞状态，并释放同步监视器 * notify（），一旦执行此方法，就会唤醒被wait的一个线程，如果有多个线程被wait，就会唤醒优先级高得那个 * notifyAll(),一旦执行此方法，就会唤醒被wait所有的线程...

2019-10-07 16:03:31 188

原创多线程基础二

package com.bupt.exer;/** * 列子：创建三个窗口卖票，总票数为100张，使用实现的runnable接口方式 * 1. 问题：买票过程中出现重票和错票 * 2.原因：当某个线程操作过程中，另一个线程也参与进来 * 3.解决方式：当一个线程a在操作ticket的时候，其他线程不能参与进来， * 直到线程a操作完ticket时，其他线程才可以开始操作ticke...

2019-10-07 14:14:37 164

原创多线程基础一

/** * 列子：创建三个窗口卖票，总票数为100张，使用实现的runnable接口方式 * 1. 问题：买票过程中出现重票和错票 * 2.原因：当某个线程操作过程中，另一个线程也参与进来 * 3.解决方式：当一个线程a在操作ticket的时候，其他线程不能参与进来， * 直到线程a操作完ticket时，其他线程才可以开始操作ticket，这种情况即使线程a * 出现了阻塞，也不...

2019-10-07 13:32:25 167

原创 reducByKey总结

reducByKey总结在进行Spark开发算法时，最有用的一个函数就是reduceByKey。reduceByKey的作用对像是(key, value)形式的rdd，而reduce有减少、压缩之意，reduceByKey的作用就是对相同key的数据进行处理，最终每个key只保留一条记录。保留一条记录通常有两种结果。一种是只保留我们希望的信息，比如每个key出现的次数。第二种是把value聚...

2019-10-06 15:58:35 495

原创 RDD中的函数传递（序列化问题）

RDD中的函数传递（序列化问题）在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子：2.5.1 传递一个方法package com.atguiguimport org.apache.spark.{SparkConf, Spar...

2019-10-06 15:57:50 505

原创第5章 RDD编程进阶

第5章 RDD编程进阶5.1 累加器累加器用来对信息进行聚合，通常在向 Spark 传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。5.1.1 系...

2019-10-06 15:57:14 194

原创 RDD算子练习

RDD算子练习文件格式：TS province city userid adid 时间戳省份城市用户广告需求：统计每一个省点击的TOP3的广告package com.atguigu.praticeimport org.apache.hadoop.conf.Configurationimport org.apache.spark.{SparkConf, Spark...

2019-10-06 15:56:30 323

原创 RDD行动算子

RDD行动算子2.4.1 reduce(func)案例作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。需求：创建一个RDD，将所有元素聚合得到结果。（1）创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = Parall...

2019-10-06 15:54:35 627

原创 1013 数素数（20 分)

1013数素数（20分)令Pi表示第i个素数。现任给两个正整数M≤N≤104，请输出PM到PN的所有素数。输入格式：输入在一行中给出M和N，其间以空格分隔。输出格式：输出从PM到PN的所有素数，每 10 个数字占 1 行，其间以空格分隔，但行末不得有多余空格。输入样例：5 27...

2019-03-28 22:31:56 740

原创传纸条

传纸条Time Limit:1000 msMemory Limit:65536 KiBSubmitStatisticProblem Description传纸条是一种在课堂上传递信息的老方法，虽然现在手机短信和QQ聊天越来越普及，但是手写的信息会让人感到一种亲切感。对许多学生而言，在学校里传递一些私秘性的信息是一种令人兴奋的打发时光的方式，特别是在一些令人厌烦的课堂上。...

2019-03-28 18:52:17 434

原创数据结构实验之栈与队列九：行编辑器

数据结构实验之栈与队列九：行编辑器Time Limit:1000 msMemory Limit:65536 KiBSubmitStatisticProblem Description一个简单的行编辑程序的功能是：接受用户从终端输入的程序或数据，并存入用户的数据区。由于用户在终端上进行输入时，不能保证不出差错，因此，若在编辑程序中，“每接受一个字符即存入用户数据...

2019-03-28 18:41:14 195

原创数据结构实验之栈与队列四：括号匹配

数据结构实验之栈与队列四：括号匹配Time Limit:1000 msMemory Limit:65536 KiBSubmitStatisticProblem Description给你一串字符，不超过50个字符，可能包括括号、数字、字母、标点符号、空格，你的任务是检查这一串字符中的( ) ,[ ],{ }是否匹配。Input输入数据有多组，处理到文件结束。...

2019-03-28 18:30:48 447

原创 305.网络的核

#include <bits/stdc++.h>using namespace std;const int maxn = 110;const int inf = 0x3f3f3f3f;int mp[maxn][maxn];int main(){ int t; scanf("%d", &t); while(t--) { int n, m; sca...

2019-03-28 13:50:15 284

原创 311.图像识别

#include <bits/stdc++.h>using namespace std;const int maxn = 110;int mp[maxn][maxn];int vis[maxn][maxn];int dx[8] = {1, -1, -1, -1, 0, 0, 1, 1};int dy[8] = {0, -1, 0, 1, -1, 1, -1, 1};...

2019-03-28 13:15:32 361

原创 310.内存分配

#include <bits/stdc++.h>using namespace std;int main(){ int t; scanf("%d", &t); while(t--) { int n; scanf("%d", &n); int a[110]; for(int i = 0; i < n; i++) scan...

2019-03-28 12:05:33 193

原创 123.字符串转换

#include <bits/stdc++.h>using namespace std;int main(){ int n; cin>>n; while(n--) { char str[1001]; int num[1001]; cin>>str; for(int i = 0; i < strle...

2019-03-27 21:54:58 434

原创 91.文件系统

题目描述现在很多操作系统的文件系统都是基于树形结构设计的。即一个目录下可以有若干个目录和文件，而每个目录和文件都可以通过一条从根目录出发的唯一路径来唯一确定。我们希望你实现对这样的一个文件系统的简单管理。为了简化问题，我们做出如下假设：假设文件系统初始时只有一个根目录root。假设所有出现的文件和目录的名字都是唯一的。即，不会有两个相同名字的文件出现，不会有两个相同名字的目录出现，...

2019-03-27 21:06:21 409

原创 125.统计节点个数

#include <bits/stdc++.h>using namespace std;const int maxn = 1001;struct node{ int du; int fa; vector<int>son; node() { du = 0; fa = -1; son.clear(); }};int main(){...

2019-03-27 19:28:56 286

原创 126.中序遍历序列

#include <bits/stdc++.h>using namespace std;const int maxn = 410;int a[maxn],c[maxn];int main(){ int t; cin>>t; while(t--) { int n; cin>>n; for(int i = 0; i ...

2019-03-27 01:03:04 432

原创 109.矩阵的幂

#include <bits/stdc++.h>using namespace std;const int maxn = 11;int a[maxn][maxn],b[maxn][maxn],c[maxn][maxn];int n, k;void muti_Mat(){ //memset(c, 0, sizeof(c)); for(int i = 1; i &lt...

2019-03-27 00:44:51 194

user_visit_action1.txt

product_info1.txt

city_info1.txt

机器学习实战11章 Apriori算法 毒蘑菇 mushroom.dat

机器学习实战12章 新闻网站点击流中挖掘 kosarak.dat

空空如也

机器学习实战11章 Apriori算法毒蘑菇 mushroom.dat

机器学习实战12章新闻网站点击流中挖掘 kosarak.dat