- 博客(21)
- 收藏
- 关注
原创 短视频综合推荐系统-数据挖掘(EDA)
userlogstaticdemo 1.统计用户行为 2.训练集年龄分布 3.点击数用户分析 4.直播间浏览量用户数分析(pv) 5.购买用户数分析(uv)saleseda 1.统计各个字段中控制的记录条数 2.直播间评分信息 3.用户浏览直播间分析。salesstatic 1.用户性别分析 2.直播间商品点击量 省份分析 3.对商品品牌统计用户数。开发项目的流程是:1.立项,2.需求分析 ,3.系统设计,4.开发 5.测试 6.发布 7.维护。上图就是我们数据处理的五大步骤。
2024-05-21 20:34:02 208
原创 Flinkcdc监测mysql数据库,自定义反序列化,利用flinkApi和flinkSql两种方式
CDC (Flink Change Data Capture)(Flink中改变数据捕获) 是基于数据库的日志 CDC 技术,实现了全增量一体化读取的数据集成框架。搭配Flink计算框架,Flink CDC 可以高效实现海量数据的实时集成。改变你们的一个误区,cdc只有检测功能,不能对数据库中的数据进行修改删除添加。
2024-04-05 23:55:27 1674 4
原创 Flink部署
job的一个流程:source(数据源)-> transform转换(map、flatmap、filter等)->keyBy、Aggregate(聚合)-> sink(输出:Print输出到控制台、kafka、Mysql、文件、Es)并行度(parallelism):一个任务交给多个cpu并行处理,一台计算机最大并行度就是这台计算机的cpu的核数。接着要启动历史服务器:bin/historyserver.sh start。在本地Windows开发环境里面运行的,就是Standalone运行模式。
2024-03-25 17:14:24 432 1
原创 java报错:Error occurred during initialization of VM java/lang/NoClassDefFoundError: java/lang/Object
出现这种问题是java环境配置出现了问题。
2024-03-21 09:45:23 924 1
原创 idea下载插件时找不到插件怎么办
按照我箭头指向的地方,没有勾选的地方勾选上,路径要和我写的路径一致 这个地方只勾选我勾选的地方,idea版本号不同,这个页面出现的内容也不同,如果有其他选项把其它选项的勾给去掉
2024-03-20 19:48:10 316 1
原创 Error:(52, 5) reference to sqrt is ambiguous;it is imported twice in the same scope byimport scala
报错中文大体意思:sqrt是模糊的,import.scala.math_和别的包导入冲突了,这两个包冲突了,所以我们删除第一个图箭头指向的包就可以运行了。
2024-03-11 17:15:11 202 1
原创 object XXX is not a member of package
解决的关键就是这个:将箭头的路径换为 C:\Users\12406\.m2\repository。报以上错误,作者找了快两个 小时,找了各种资料,也都没用,但凭着我的毅力,最终找到了。最后重新刷新一下maven的生命周期,一定要刷新完成之后,再去运行项目。找到上述图片的maven位置。重点是找到.m2路径。
2024-03-09 08:55:51 381 1
原创 Exception in thread “main“ java.lang.Exception: The window duration of windowed DStream (30000 ms) m
java.lang.Exception:窗口DStream的窗口持续时间(30000毫秒)必须是父DStream的slide duration 持续时间(20000毫秒)的倍数。荒找了半天的错,就是没有找到,还好会点英语,细细翻译报错才知道哪里错了。这是配置上下文环境,箭头指向是多少秒读取数据。5是streamingContext的秒数。他们三什么关系呢,我画一个图你们就知道了。第一个参数的秒数是第二个参数秒数的的倍数。window(第一个参数,第二个参数)
2024-03-07 13:54:29 291 1
原创 sparkStreaming将分析出来的结果导入到mysql中
/ 8. 需求三3:将需求2实时结果写入mysql数据库(4分)上面是荒创建的数据库和表,字段一定要和传入的数据一一对应。上面是我 sparkstreaming的语句和出来的效果。//多加了一层foreachRDD。数据也成功导入到mysql中。
2024-03-07 11:52:34 271 1
原创 将sparkSql结果导入到mysql中
/url路径格式jdbc:mysql://localhost:3306/数据库名。//第一个参数是url路径,第二个参数是表名,第三个参数是配置文件。注:这张表不用提前创建,数据库中不要有这张表,很重要!//写你要将内容放在哪张表里,表不用提前创建。如果忘了参数,可以ctrl+p,查看参数。将以上三个参数写在咱们一开始说的方法中。想要将数据存入到mysql需要如下操作。上面是DataFrame运行的结果。//df9是DataFrame名。//配置你们数据库用户名和密码。接下来就是写括号里面的参数。
2024-03-06 07:25:57 543 1
原创 sparkcore将获取结果输入到mysql中
/第一个参数是第一个问好位置,第二个参数是传的值。//第一个参数是url路径,第二个参数是用户名,第三个参数是密码。这是sparkcore运行出来的结果,我们要将结果导入到mysql中该怎么做呢。//设置驱动,Class一定要大写。//rdd3是我sparkcore的变量名。
2024-03-05 21:30:21 245 1
原创 Scala
一个类有自己的属性,例如:一个学生有自己的学号和姓名在类中使用var/val来定义成员变量对象直接使用成员变量名称来访问成员变量class Dog{val color="白色"println(dog.color)//打印出来的是白色。
2024-03-03 16:13:55 911
原创 Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile(default) on Project Data
下,刚入职的新同事报错,找了一上午,原来是中文路径引起的错误,因为。如果你项目处于英文路径,那就是scala配置没有配,下面几个步骤。如果没有点击加号,点击列表最下面的scala。看创建项目的时候是不是处于。maven无法识别中文路径。看你们有没有scala插件。
2024-03-03 12:13:20 227
原创 Exception in thread “main“ org.apache.spark.SparkException: Task not serializable
做题思路:当我们需要用到两个条件进行分析是,我们可以利用map将这个两个条件当作key,然后利用其他算子,进行分析,可以再利用map转成我们所需要的东西。其中变量sc是SparkContext的实例,它是运行在Driver端的,不能在Rdd中去调用sc,否则的话就会报序列化错误,如何解决,作者正在想。sparkcontext不能用在算子当中,我们必须换一种 方式去完成数据分析。作者这里是利用sparkcore。
2024-03-03 11:05:17 457
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人