程序员阿伟-CSDN博客

原创 python项目导出项目所使用到的依赖

这种方式是把整个环境中的包都列出来了，无论是使用到的还是没使用到的都给你导出。通常情况下我们只需要导出当前项目的requirements.txt，这时候就推荐pipreqs了。

2023-06-18 15:46:17 637

原创通过ChatGPT实现的ChatPDF，简单的应用落地，让你的文档变成一个智能助手，通过对话的方式快速学习文档内容

首先，添加一些语料，如图下所示，语料优点少，向尝试的可以自行准备相关的语料那么，我现在让他担任一个旅游客服，因为我准备的语料都是关于景点方面的开始问答语料有点少，可以看到，效果还是很强的，我们可以自己准备语料，然后训练属于自己的ai客服。

2023-03-27 10:14:25 8250 3

原创提升代码能力之构造者模式创建对象

适用于实体类的属性比较多时，因此当我们通过new的方式创建对象时，一般来说我们需要逐个字段的去赋值可以看到，我们new对象时，如果没有空参构造函数，那么就需要每个属性逐个的去赋值，十分的麻烦，而且就算有空参构造，那么赋值的时候，也需要set方法，同样不方便，那么是否有方法可以只需要赋值字段想要的字段，不赋值的属性使用默认值，然后创建一个对象。

2023-03-07 12:16:58 405

一般设置状态的生命周期的目的无非就是减少服务器的资源占用，在生成环境中，对状态设置生命周期，例如设置1天后自动清除状态（为null）一般用来求当天的独立用户数等指标，例如求页面浏览的独立用户数，也就是uv，我们可以设置一个状态来标记该用户当天是否已经访问该页面，如果状态为null，加1，不为null，就需要判断该状态（一般存储的是用户浏览的日期）是否等于当天，不等，加1并更新状态，否则，不做处理。

2023-03-04 20:27:46 865

原创列式存储和行式存储的区别

好处：想查某个人所有的属性时，可以通过一次磁盘查找加顺序读取就可以。但是当想查所有人的年龄时，需要不停的查找，或者全表扫描才行，遍历的很多数据都是不需要的。好处：如果想查所有人的年龄只需把年龄那一列拿出来就可以了，例如 select age from xxx。可以看到每个字段的值都是按顺序扎堆存储在一起的，

2023-03-01 12:00:26 479 1

原创 Java调用IK分词器进行分词，封装工具类

在大数据的场景下，一般用于统计关键词出现的频率，因此我们需要对一些数据文本进行分词，得到我们想要的关键词。

2023-03-01 09:12:26 2284

原创 Caused by: java.lang.IllegalStateException: No operators defined in streaming topology. Cannot execu

当没有流的存在时，不要在代码的最后加上env.execute()，其实报错也没问题，照样能运行。在整个代码中没有流算子的存在，因为都是使用table sql的数据类型。

2023-02-28 14:50:02 1113

原创 HQL之用户留存问题

需求：求用户1日、3日、7日留存率概念：第N日活跃用户留存率：以基准日的活跃用户数据为主，第N日后依然活跃的用户占基准日活跃用户的比例。

2023-02-16 22:00:00 269

原创 HQL之行转列问题

将多行转换成一行，并过滤语文成绩大于英语成绩的学生的id。需求1：求语文成绩大于英语成绩的学生的id。2、将学科的种类化成字段。

2023-02-16 17:29:44 148

原创如何区分iterator和iterable

Collection接口继承了iterable接口，因此所有实现了Collection接口的集合类都有一个iterator方法。而iterator是iterable中的一个方法，用来返回一个迭代的对象。iterable是一个类接口。

2022-11-06 13:16:26 301

原创 MyBatis-plus框架使用

Mybatis-plus可以说是Mybatis的增强版，增强有以下几点：1、相比较于Mybatis可以生成service，serviceImpl，controller层的代码，减少代码工作量。2、service层实现了通用的CURD（增删改查功能），减少了用户人员的代码量，避免了大量的重复代码。注意事项：1.mybatis-plus和mybatis-plus-generator版本必须一致。2.mybatis-plus 和 springboot 的版本最好对应，可以上。...

2022-08-29 17:39:29 10254 2

原创 client.SparkClientImpl (SparkClientImpl.java:＜init＞(120)) - Timed out waiting for client to connect.

在hive-site.xml中增加，可以加大点数值。

2022-08-24 12:07:18 733

原创 hadoop一些常用命令

该命令后面 + hdfs的路径，可以查看该hdfs路径下的所有文件和目录一般我们只需要第八个结果，也就是文件的名称或者目录的文采，可以这样获取。

2022-08-23 18:52:29 661

原创 Hive中的时间函数的使用

注意：date_format函数中第一个参数只能是有格式的时间字符串，不能是时间戳字符串或者时间戳，并且，第二个参数的格式必须要跟第一个的一致才行。

2022-08-20 10:40:52 627

原创 python文件打包成exe可执行文件

注意打包出来的是一个文件夹，并且配置文件不会以同被打包，如果有相关的项目配置文件，记得自己手动添加到打包出来的文件夹中。

2022-08-02 00:06:34 231

原创 python使用清华源下载包

代码】python使用清华源下载包。

2022-08-01 17:02:24 4988

原创 Anacoda的用途

一般来说，我们都会在自己的电脑安装某个版本python的解释器，然后平时写代码的时候都用这个解释器，那么这样的话就会有个不好的地方，那就是会出现第三方库版本冲突问题，试想一下，如果你正在编写的两个项目都是用你电脑中的同一个python解释器，那么如果你的两个项目在使用某个库时都必须规定使用某个版本的，这样势必造成冲突。.........

2022-08-01 16:50:09 2576

原创 Spark中的Structured Streaming

streaming(spark1.6引入使用批处理模拟流式计算)DStream(离散流)structuredstreaming(结构化流spark2.0引入)StructuredStreaming基于SparkSQl引擎,是一个具有弹性和容错的流式处理引擎.使用StructureStreaming处理流式计算的方式和使用SparkSQL计算静态数据(表中的数据)的方式是一样的。......

2022-07-26 14:28:40 2080

原创快速搭建一个SpringBoot项目

1.首先是父依赖spring-boot-starter-parent：统一springboot相关依赖的版本，导入依赖时只需要依赖名即可，不用版本，例如：2.properties配置：在标签内可以把版本号作为变量进行声明，后面dependency中用到版本号时可以用${变量名}的形式代替，这样做的好处是：当版本号发生改变时，只有更新properties标签中的变量就行了，不用更新所有依赖的版本号，例如：3.SpringBoot项目web程序的必须依赖spring-boot-starter-web

2022-07-11 15:23:19 654

原创探究maven项目的打包方式

现在都是使用idea中maven插件来打包项目，因此此文章将基于idea中的maven插件打包。打包分为小包和大包两种概念：小包：只打包我们写的代码，不打包代码依赖的其他jar包。大包：打包项目本身的代码以及项目所依赖的其他jar包。因此，如果我们的项目代码只需要被别的代码引用，也就是不需要启动类去运行，那么打包成小包即可，如果我们的项目需要独立的运行，需要启动类去运行，那么就需要打包成大包。我们先创建一个maven项目，创建一个启动类，随便引入一个其他依赖。启动类pom文件

2022-07-09 14:47:37 25253 3

原创 Mysql的两种覆盖表中重复记录的方法

表中必须有主键或者唯一索引。根据主键或唯一索引找到相同主键的数据，然后删除原先的数据，再添加新的数据。如果表中没有相同的主键或唯一索引，则相当于insert into。ON DUPLICATE KEY UPDATE 方式前提条件表中必须有主键或者唯一索引。根据主键或唯一索引找到相同主键的数据，然后执行update更新操作。如果表中没有相同的主键或唯一索引，则相当于insert into。...

2022-06-23 13:31:48 2144

原创 SparkStreaming整合Kafka

1.KafkaUtils.createDStream--API创建。2.会有一个Receiver作为常驻Task运行在Executor进行中，一直等待数据的到来。3. 一个Receiver效率会比较低，那么可以使用多个Receiver,但是多个Receiver中的数据又需要手动进行合并，很麻烦，且其中某个Receiver挂了之后，会导致数据丢失，需要开启WAL预写日志来保证数据的安全，但是效率又低了。4.Receiver模式使用Zookeeper来连接Kafka（Kafka的新版本中已经不推荐使用该方

2022-06-21 23:09:38 883

原创 SpringBoot项目和普通的java项目的区别

一般来说我们都喜欢用Maven来构建项目，无论是普通的java项目，还是SpringBoot项目，因为使用Maven来管理项目的jar包非常的方便。

2022-06-17 09:37:04 4493

原创 Channel closed [channel=c1]. Due to java.io.IOException: Usable space exhausted, only 441741312 byte

flume报错：这是由于我们flume数据存储在服务器上的目录的磁盘空间不满足于flume配置文件的磁盘配置解决办法：增大磁盘空间或改小文件配置a1.channels.c1.minimumRequiredSpace = 102400

2022-05-25 19:00:30 684

原创 SPARK任务运行报错：Caused by: java.util.concurrent.TimeoutException: Timed out waiting for RPC

问题原因这是因为hive将spark任务往yarn上提交时超时了，因此hive直接判定该spark任务执行失败解决方法修改hive-site.xml文件，增大hive.spark.client.server.connect.timeout的值 <property> <name>hive.spark.client.server.connect.timeout</name> <value>50000...

2022-05-13 21:21:23 2036

原创 No module named yum

问题原因一般出现这种原因是因为yum与python的版本不对应，因为yum是python的模块，而你的系统中又存在多个版本的python，所以会对应不上解决方法所以修改yum的配置，修改文件： vim /usr/bin/yum#修改python解释器版本#!/usr/bin/python => #!/usr/bin/python2.7另外也要修改urlgrabber-ext-down使用的解释器，与yum的python版本...

2022-05-11 21:09:24 2406

原创区分实时数据、离线数据、流式数据以及批量数据的区别

数据处理延迟的长短实时数据处理：毫秒级别离线数据处理：小时或天级别数据处理的方式角度流式数据处理批量数据处理区分其实实时数据处理不等同与流式数据处理，批量数据处理也不等同于离线数据处理，一个是数据处理的方式，一个是数据处理的时间长短，不能搞混。流式数据处理：来一条数据处理一条数据批量数据处理：缓冲累积到一定量的数据再进行数据实时数据处理：在秒级别内完成数据分析或数据查询离线数据处理：需要小时甚至天才能完成数据分析或查询...

2022-04-04 21:19:45 3716

原创 XShell突然间无法连接虚拟机

今天要用到虚拟机，然后就使用XShell连接，可是现实无法连接，然后我又用其他工具连接，也无法连接，明明之前还能连接的。解决办法首先这个方法是保证你的其他配置没问题，也就是之前能连接禁用，再启用VM8网卡即可...

2022-04-04 21:06:42 1636 1

原创简单理解一下MVC和三层架构

MVC说到mvc我们就要谈及java web的发展历程：首先，一开始的java是应用在servlet端的，而servlet是运行在服务器端的逻辑程序，但是web应用肯定是需要有页面的，因此此时的java web就形成了servlet > java + HTML +CSS + javascipt。但是后来发现这样写会导致十分的不方便，修改代码的话需要频繁的重启服务器。因此，有出现了新的技术JSP。JSP将HTML+CSS这些前端代码分离出去，因此修改页面后不需要重启服务器，只要刷新浏

2022-03-30 09:41:49 721

原创使用pycharm创建虚拟环境

为什么创建虚拟环境？一般来说，使用全局环境的话，会出现包版本冲突的情况，这样的话，每当我们需要完成项目时，就需要去不更改包的版本，如果为每个项目创建一个虚拟环境，这样的话，我们的项目的包库都是独立的，不存在冲突的现象。创建流程1.首先确保你的项目中没有该文件夹venv，这个文件夹就是用来存放环境的，新建的项目是没有该文件夹的。2.点击setting3.找到Interpreter4.完成后继续点击添加add5.可以看到这里有我们创建好的虚拟环境，点击OK即可..

2022-03-23 00:43:28 8663 3

原创 raise RuntimeError(‘DataLoader worker (pid(s) {}) exited unexpectedly‘.format(pids_str))RuntimeErro

今天在使用pytorch加载数据时出现如下错误：raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids_str))RuntimeError: DataLoader worker (pid(s) 4252, 17184) exited unexpectedly仔细分析了一下，原因定位在num_workersdataloader = DataLoader(dataset,batch_s

2022-03-22 08:37:26 14969 12

原创 ModuleNotFoundError: No module named ‘pip‘

解决办法python -m ensurepippython -m pip install --upgrade pip

2021-12-12 19:25:20 487

原创 JDBC工具类封装，创建注解标注实体类，读写操作自动加载对象，简单实现了类似Mybatis框架的底层实现

前言该JBDC工具类实现了基本的增、删、改，查的操作，这并不是最主要的，主要的是实现这个工具采用的技术和思想，例如，注解的创建，使用，以及代码自动加载被注解的实体类对象，模仿Mybatis的底层原理实现。代码注解Table用来标注实体的对应的表import java.lang.annotation.ElementType;import java.lang.annotation.Retention;import java.lang.annotation.RetentionPoli

2021-12-10 17:35:12 8258

原创 hadoop的namenode无法启动只能通过格式化解决？

问题报错问题忘记记录了，口头描述一下吧，事情是这样的，今天启动hadoop集群的时候，突然namenode无法启动了，之前都是可以正常启动的，我回忆了一下，应该是我最后一次不正常的操作导致的后果，hadoop集群启动的时候，直接关闭了虚拟机，因此上网查找解决办法，但是大多数都是要格式化才能解决，这样的话，数据就全部丢失了。如何解决既然问题已经找到了，最后一次的启动造成的，那么我们可以回退hadoop的版本，回到更早之前的版本，这样的话，丢失的数据就不会太多解决...

2021-12-07 00:09:58 1411

原创使用python封装log日志文件模块的工具类

导入第三方库import loggingimport logging.handlers封装工具类1、创建util.py文件'''日志工具类'''class Logging: def __init__(self): # log文件存储路径 self._log_filename = 'test.log' ''' %(levelno)s: 打印日志级别的数值 %(levelname)s: 打印日志

2021-12-06 19:22:59 921 1

原创使用pyhon封装一个定时发送邮件的工具类

导入第三方库import smtplibfrom email.mime.text import MIMETextfrom email.mime.multipart import MIMEMultipartfrom email.mime.image import MIMEImage工具类创建一个util.py文件class Email(): def __init__(self, mail_user, mail_pwd, mail_host=''): #

2021-12-06 13:27:55 414

原创 Springboot+Thyleaf+Model+JavaScript实现数据前后端流通

后端代码使用ModelMap或者Model都可以public String getPv(ModelMap modelMap){ modelMap.put("data",JSON.toJSONString(data)); modelMap.put("time",JSON.toJSONString(time)); return "pv"; }前端页面1、html页面导入thyleaf命名空间<html xmlns:th="ht

2021-12-02 23:01:30 1013

原创 fastjson的详细用法

作用fastjson用于将Java Bean序列化为JSON字符串，也可以从JSON字符串反序列化到JavaBean。准备1、导入依赖 <dependencies> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> &lt

2021-12-02 11:25:23 1338

原创 shell脚本在linux中运行报错：: command not found: line 2:

问题报错原因在windows下的sh脚本和linux下的sh脚本编码格式不一样导致的解决办法在存在sh脚本的文件夹中右键（确保已经安装git）打开git bash here 然后 cd 到指定路径，输入以下命令find ./ -name "*.sh" | xargs dos2unix...

2021-11-29 11:17:17 3608

原创 azkaban上传zip文件报错：Installation Failed.MALFORMED

问题报错原因项目中所有的sh脚本文件没有进行转码工作解决办法在电脑空白位置右击（确保已经安装git）打开git bash here 然后 cd 到指定路径吗，输入以下命令find ./ -name "*.sh" | xargs dos2unix...

2021-11-28 12:45:11 1958

二叉树的层次遍历实现.docx

matlab 矩阵数组使用手册.docx

基于python的决策树莺尾花代码实现.docx

空空如也