自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 堡垒机、跳板机简单介绍

堡垒机、跳板机简介

2025-02-11 11:33:26 913

原创 sublime汉化教程--设置成简体中文版本

sublime汉化教程--设置成简体中文版本

2025-02-10 15:46:00 1252

原创 如何写好大模型提示词

大模型提示词

2025-02-08 14:55:32 593

原创 PDF 转换成 txt 文件

2:逻辑,PDF先解析成html,在对HTML提取txt,目前来看纯文本的txt提取效果不错,双目排版论文格式的提取质量不高,包含图标,图片,表格等的PDF文件提取质量不好。3:之后会调研其他转换方法,争取能够提高提取质量。

2024-01-05 14:17:52 539

原创 广度优先搜索算法获取网站URL,根据URL获取新闻网站主体内容的一种方法

这种方法需要给出网站中的一个网页,不需要给出xpath,css等格式,就能够对新闻主体内容进行抽取,抽取效果目前看来还不错,不会抽取到页眉页脚元素。对于没有正文的导航页,抽取到免责声明。这也好清洗,总体看来效果不错。1:我们按照广度优先搜索算法获取网站URL,一般使用广度优先搜索的思想。这是因为广度优先搜索更适合用于按层次遍历,而在爬虫中,我们通常会从一个页面开始,然后逐层深入爬取其他页面。3:得到的result中提取需要的内容。

2024-01-04 16:34:58 592

原创 一种Python提取PDF的方法

1:Python里的PyPDF2库可以提取PDF的内容,但是对于论文格式的PDF、图片过多的PDF,效果不好,针对整齐文本的PDF提取效果不错。

2024-01-04 11:12:10 707

原创 spark上提交Python任务的方法,以及配置submit.sh 脚本参数

Spark 应用程序的输入输出路径等参数:根据你的具体业务逻辑,可能需要设置输入路径、输出路径以及其他相关参数。参数指定需要添加到 Spark 应用程序的额外 Jar 包路径,多个 Jar 包可以使用逗号分隔。参数指定 Spark 应用程序的名称,方便在 Spark UI 或者日志中进行识别。Spark 应用程序的其他配置参数:根据你的具体需求,可以使用。参数指定 Spark 应用程序的提交模式,可以是。Spark 应用程序的 Jar 包路径:使用。Spark 应用程序的提交模式:使用。

2024-01-03 17:22:41 1569 1

原创 大数据常见web UI界面

以上端口号是默认配置,实际部署中可能会有调整。在使用这些Web UI时,确保相关端口在防火墙中打开,并考虑采用安全措施,如HTTPS加密等。此外,具体的Web UI端口和配置可能因不同的发行版和版本而有所不同。大数据平台中的Web UI界面通常提供了对集群资源、任务监控和管理的可视化界面。

2024-01-03 11:49:49 814

原创 像hive表中导入数据时可能会把源文件数据删除,解决方式

如果你的Hive表是Managed Table(托管表),而不是External Table(外部表),则在加载数据时,Hive可能会移动或删除原始文件。如果你想要保留OSS上的原始数据,可以使用外部表而不是托管表。在前面的例子中,你可以使用。但是,如果你已经使用了托管表,并且原始数据被删除,那么除非你有备份,否则将无法恢复这些数据。但是,请注意,这种更改可能需要谨慎,因为它会影响表的元数据和存储位置。如果你已经使用的是托管表,而不是外部表,你可能需要在加载数据之前备份原始数据,以避免数据丢失。

2024-01-03 11:31:59 852

原创 spark上如何终止目前正在运行的任务

命令提交任务,并通过 Spark Web UI 监控任务的执行状态。如果想要终止正在运行的 Spark 任务,可以在 Spark Web UI 中找到该任务,并点击“Kill”按钮来停止该任务的执行。是 Spark 应用程序在 YARN 上的应用 ID,可以在 Spark Web UI 或者命令行中使用。停止正在运行的 Spark 应用程序。1:在 Spark 中,可以使用。

2024-01-03 11:26:39 2661

原创 MAC系统 Python matplotlib画图 无法显示中文解决方式

mac系统无法显示中文,需要下载对应的文件,非常麻烦。在这里,我们直接选择对应的字体,无需下载。之后可正常显示中文。

2023-12-06 13:52:01 930

原创 针对JSON文件中是否含有全角数据 去除全角数据

【代码】针对JSON文件中是否含有全角数据 去除全角数据。

2023-10-27 11:23:32 172

原创 try --except 方法判断数据是否符合JSON格式

【代码】try --except 方法判断数据是否符合JSON格式。

2023-10-27 11:20:00 180 1

原创 Python中的一些格式转换 txt json xlsx等格式转换方式

4:JSON文件转换成Excel文件。一些常用数据类型的转换。

2023-10-27 11:18:29 311 1

原创 国内常见镜像源

国内常见镜像源

2023-08-22 09:30:37 526 1

原创 在做nlp任务时,常见的文本清洗操作合集

在做nlp任务时,常见的文本清洗操作合集

2023-08-17 10:38:46 1353 1

原创 anaconda 安装pytorch(GPU版本)教程

anaconda 安装pytorch(GPU版本)教程

2023-08-16 21:01:54 2783 1

原创 基于预训练BERT模型计算QA对话语义相似度判断

基于预训练BERT模型计算QA对话语义相似度判断

2023-08-14 11:39:06 882

原创 基于信息熵与最大信息熵的文档过滤系统:旨在过滤低质量和重复文档。

基于信息熵实现文档内容过滤

2023-08-14 09:49:39 221

原创 实现word2vec训练自己的词向量模型

小白使用word2vec

2023-08-10 13:52:24 284 1

原创 nlp任务中的数据清洗

nlp任务中的数据清洗。

2023-08-08 17:21:27 115

原创 Python中列表推导式(list comprehension)的用法。作用是将一个二维列表扁平化为一维列表

列表推导式的作用是将一个二维列表扁平化为一维列表

2023-08-08 15:51:29 322

原创 关于对大模型数据json文件进行规则处理实现过滤掉违禁词,多余标点符号,乱码等

对json数据进行数据预处理

2023-07-09 10:53:46 886 1

原创 QT 项目实战

在虚拟机上release出可执行文件,在MobaXterm上,连接上终端的IP地址,就可以在终端上执行自己写的QT项目。通信部分:主要是告诉单片机应该执行什么操作,比如控制电机运动,接收传感器传来的参数等。实验逻辑部分:主要是结合QT页面里面的按钮等控件,去封装相应的功能。QT页面部分:设计UI页面,针对上位机应该有的需求设计相应的控件。可以分为具体三个部分,实验逻辑部分+QT页面交互部分+通信部分。QT + C++ 在liunx环境下开发实验上位机。界面用的QT 实验部分用的是C++语言。...

2022-08-11 11:07:04 1694 1

原创 QT 项目中QWidget页面中,实现模态功能。

2解决键盘无法输入的问题要将QWidget换成QDialog类,也就是原本设计的页面是QWidget,要换成QDialog对话类,并且在触发这个QDialog对话页面的地方要新new一个页面。d在QT项目中经常会用到QWidget的小的弹窗页面,这些页面里面会有新的操作按键,这时候不想让原本页面的按键影响,就要让原本页面模态化(禁止操作)但是QWidget中如果需要用到键盘输入,(这个也是操作,已经模态化不能使用键盘),就会发现键盘可以点击,但是内容无法输入。这里显示两种模态化的方法。...

2022-07-30 16:56:03 1633

原创 QT 实现tablewidget表格的自适应宽度和自动等宽

QT实现tablewidget表格的自适应宽度和自动等宽。

2022-07-16 14:28:53 3357 1

原创 QT 项目 在虚拟机上不报错,但在仪器上死机解决方法

1可能是按钮跳转的函数或者页面有声明的错误,或者名字未对应,指针未定义等(一般编译时候都能发现这些错误)2可能是存在虚空的bug,这里需要重新构建一下项目,再将程序烧录到单片机上,一般可以解决问题。但在仪器上会出现一些按钮按下死机,问题排查。...

2022-07-16 11:52:59 355

原创 QT程序 实现自适应屏幕分辨率

实现自适应屏幕分辨率。

2022-07-15 16:37:25 1938

原创 【QT项目】实现设置参数,并且开机后,仍然显示上次实验数据

2参数设计.h文件里面声明变量(你的参数),用到的函数等等。这样就实现了,设置的参数,再重启之后仍然能够,显示在界面上。4在主页面的cpp文件中的初始化函数中,读取数据库的值。将输入数据作为参数的数据并且写入到数据库中。3参数设计.cpp参数的传入。...

2022-07-15 15:07:57 789

原创 单片机ip地址的更改

通过MobaXterm软件,登录单片机之后,通过命令 vi /etc/network/interfaces(注意vi后有空格)输入命令回车; 如图是原本的IP地址,更改即可,更改后ESC退出,wq 回车回到最开始的页面

2022-07-13 16:18:39 1302

原创 QT 实现当前页面禁止其他页面响应

QT 实现模态功能

2022-07-13 15:58:34 985

原创 QT 计时器使用方法

QT里面的计时器

2022-07-13 15:54:56 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除