- 博客(32)
- 收藏
- 关注
原创 PDF 转换成 txt 文件
2:逻辑,PDF先解析成html,在对HTML提取txt,目前来看纯文本的txt提取效果不错,双目排版论文格式的提取质量不高,包含图标,图片,表格等的PDF文件提取质量不好。3:之后会调研其他转换方法,争取能够提高提取质量。
2024-01-05 14:17:52
539
原创 广度优先搜索算法获取网站URL,根据URL获取新闻网站主体内容的一种方法
这种方法需要给出网站中的一个网页,不需要给出xpath,css等格式,就能够对新闻主体内容进行抽取,抽取效果目前看来还不错,不会抽取到页眉页脚元素。对于没有正文的导航页,抽取到免责声明。这也好清洗,总体看来效果不错。1:我们按照广度优先搜索算法获取网站URL,一般使用广度优先搜索的思想。这是因为广度优先搜索更适合用于按层次遍历,而在爬虫中,我们通常会从一个页面开始,然后逐层深入爬取其他页面。3:得到的result中提取需要的内容。
2024-01-04 16:34:58
592
原创 一种Python提取PDF的方法
1:Python里的PyPDF2库可以提取PDF的内容,但是对于论文格式的PDF、图片过多的PDF,效果不好,针对整齐文本的PDF提取效果不错。
2024-01-04 11:12:10
707
原创 spark上提交Python任务的方法,以及配置submit.sh 脚本参数
Spark 应用程序的输入输出路径等参数:根据你的具体业务逻辑,可能需要设置输入路径、输出路径以及其他相关参数。参数指定需要添加到 Spark 应用程序的额外 Jar 包路径,多个 Jar 包可以使用逗号分隔。参数指定 Spark 应用程序的名称,方便在 Spark UI 或者日志中进行识别。Spark 应用程序的其他配置参数:根据你的具体需求,可以使用。参数指定 Spark 应用程序的提交模式,可以是。Spark 应用程序的 Jar 包路径:使用。Spark 应用程序的提交模式:使用。
2024-01-03 17:22:41
1569
1
原创 大数据常见web UI界面
以上端口号是默认配置,实际部署中可能会有调整。在使用这些Web UI时,确保相关端口在防火墙中打开,并考虑采用安全措施,如HTTPS加密等。此外,具体的Web UI端口和配置可能因不同的发行版和版本而有所不同。大数据平台中的Web UI界面通常提供了对集群资源、任务监控和管理的可视化界面。
2024-01-03 11:49:49
814
原创 像hive表中导入数据时可能会把源文件数据删除,解决方式
如果你的Hive表是Managed Table(托管表),而不是External Table(外部表),则在加载数据时,Hive可能会移动或删除原始文件。如果你想要保留OSS上的原始数据,可以使用外部表而不是托管表。在前面的例子中,你可以使用。但是,如果你已经使用了托管表,并且原始数据被删除,那么除非你有备份,否则将无法恢复这些数据。但是,请注意,这种更改可能需要谨慎,因为它会影响表的元数据和存储位置。如果你已经使用的是托管表,而不是外部表,你可能需要在加载数据之前备份原始数据,以避免数据丢失。
2024-01-03 11:31:59
852
原创 spark上如何终止目前正在运行的任务
命令提交任务,并通过 Spark Web UI 监控任务的执行状态。如果想要终止正在运行的 Spark 任务,可以在 Spark Web UI 中找到该任务,并点击“Kill”按钮来停止该任务的执行。是 Spark 应用程序在 YARN 上的应用 ID,可以在 Spark Web UI 或者命令行中使用。停止正在运行的 Spark 应用程序。1:在 Spark 中,可以使用。
2024-01-03 11:26:39
2661
原创 MAC系统 Python matplotlib画图 无法显示中文解决方式
mac系统无法显示中文,需要下载对应的文件,非常麻烦。在这里,我们直接选择对应的字体,无需下载。之后可正常显示中文。
2023-12-06 13:52:01
930
原创 Python中列表推导式(list comprehension)的用法。作用是将一个二维列表扁平化为一维列表
列表推导式的作用是将一个二维列表扁平化为一维列表
2023-08-08 15:51:29
322
原创 QT 项目实战
在虚拟机上release出可执行文件,在MobaXterm上,连接上终端的IP地址,就可以在终端上执行自己写的QT项目。通信部分:主要是告诉单片机应该执行什么操作,比如控制电机运动,接收传感器传来的参数等。实验逻辑部分:主要是结合QT页面里面的按钮等控件,去封装相应的功能。QT页面部分:设计UI页面,针对上位机应该有的需求设计相应的控件。可以分为具体三个部分,实验逻辑部分+QT页面交互部分+通信部分。QT + C++ 在liunx环境下开发实验上位机。界面用的QT 实验部分用的是C++语言。...
2022-08-11 11:07:04
1694
1
原创 QT 项目中QWidget页面中,实现模态功能。
2解决键盘无法输入的问题要将QWidget换成QDialog类,也就是原本设计的页面是QWidget,要换成QDialog对话类,并且在触发这个QDialog对话页面的地方要新new一个页面。d在QT项目中经常会用到QWidget的小的弹窗页面,这些页面里面会有新的操作按键,这时候不想让原本页面的按键影响,就要让原本页面模态化(禁止操作)但是QWidget中如果需要用到键盘输入,(这个也是操作,已经模态化不能使用键盘),就会发现键盘可以点击,但是内容无法输入。这里显示两种模态化的方法。...
2022-07-30 16:56:03
1633
原创 QT 项目 在虚拟机上不报错,但在仪器上死机解决方法
1可能是按钮跳转的函数或者页面有声明的错误,或者名字未对应,指针未定义等(一般编译时候都能发现这些错误)2可能是存在虚空的bug,这里需要重新构建一下项目,再将程序烧录到单片机上,一般可以解决问题。但在仪器上会出现一些按钮按下死机,问题排查。...
2022-07-16 11:52:59
355
原创 【QT项目】实现设置参数,并且开机后,仍然显示上次实验数据
2参数设计.h文件里面声明变量(你的参数),用到的函数等等。这样就实现了,设置的参数,再重启之后仍然能够,显示在界面上。4在主页面的cpp文件中的初始化函数中,读取数据库的值。将输入数据作为参数的数据并且写入到数据库中。3参数设计.cpp参数的传入。...
2022-07-15 15:07:57
789
原创 单片机ip地址的更改
通过MobaXterm软件,登录单片机之后,通过命令 vi /etc/network/interfaces(注意vi后有空格)输入命令回车; 如图是原本的IP地址,更改即可,更改后ESC退出,wq 回车回到最开始的页面
2022-07-13 16:18:39
1302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅