- 博客(44)
- 资源 (6)
- 收藏
- 关注
原创 基于Docker容器部署DeepSeek-R1-Distill-Qwen-7B
首先打开,然后搜索DeepSeek-R1-Distill-Qwen-7B,进入详情页官方推荐使用vllm来启动,但是手动搭建vllm环境容易出各种问题,我们这里直接找一个vllm的Docker镜像。
2025-04-03 16:38:57
730
原创 QwQ-32B-GGUF模型部署
由于硬件只有两张4090卡,但是领导还想要满血版32b的性能,那就只能部署GGUF版。据说QwQ-32B比Deepseek-R1-32b要更牛逼一些,所以就选择部署QwQ-32B-GGUF,根据最终的测试--针对长文本(3-5M大小)的理解,QwQ-32B-GGUF确实要比Deepseek-R1-32b-GGUF好一些。是阿里官方发布的原始模型,通常以 PyTorch 权重文件(如.bin或)形式存储,需依赖深度学习框架(如 Hugging Face Transformers)加载。
2025-04-01 17:43:42
1136
原创 selenium在Linux环境下截屏(save_screenshot)中文乱码的问题
options.add_argument("--lang=zh-CN") # 设置语言为中文。1、设置浏览器options选项。3、安装字体渲染引擎。
2025-01-08 17:24:25
746
原创 使用ddddocr进行网站验证码识别
其中,第1步和第2步,按理说页可以通过find_element方法查找到验证码图片,再获取src属性并保存的方式处理。2、查找到验证码图片元素,获取到元素的location和size信息,基于上一步的图片裁剪出验证码图片;这里使用ddddocr将验证码图片中的文字识别;3、调用ddddocr进行识别;1、将登录页保存为图片;
2024-12-19 15:24:07
657
原创 vscode连接docker容器并调试Python代码
而开发的项目又无法在本地运行(需要GPU),那调试代码的话就很难受了,好在vscode足够强大,使用插件可以连接docker容器,并基于容器运行调试debug代码。点击左下角绿色的ssh信息,然后弹出让选择远程连接的选项,找到“Dev Containers”分组下的“Attach to Running Container”(当然前提是你的docker容器已经启动起来了)。然后,就能开到连接的服务器上的所有docker容器了,单击选择你的docker容器即可;一、安装Dev Containers插件。
2024-07-18 18:20:33
2765
1
原创 vscode及pycharm配置Python文件模板
第一步,依次点击“File”->“preference”->“Configure User Snippets”,在弹出的框中输入Python,打开python.json 文件。第三步,把“Enable Live Templates”的勾选中,点击“apply”,“OK”即可,新建一个文件,模板内容会自动插入到文件中。第三步,新建一个文件,输入"pt",然后按下"Tab"键,模板内容会自动插入到文件中。二、pycharm配置方法。一、vscode配置方法。
2024-07-18 18:19:41
1239
原创 starrocks的fe节点启动不起来的解决办法
fe节点启动报错:Do not specify the helper node to FE itself. Please specify it to the existing running Leader or Follower FE。4、启动该节点:./bin/start_fe.sh --helper fe_leader_ip:9010 --daemon。1、先删除掉该fe节点:ALTER SYSTEM DROP FOLLOWER "host:edit_log_port"
2024-04-10 15:11:30
1305
原创 DolphinScheduler 补数
在工作流实例里也可以看到调度的情况,默认是调度时间范围内的每天8点,这是因为我的定时任务下线了,按照ds默认的时间,当然我这是T+1的,至于哪个时间点执行都无所谓了。不过这里要注意的一点是我的数仓是T+1的,所以启动参数传的是当前时间的前一天,那调度日期选择23号到25号,其实最后跑的数是22号到24号的数据。也就是如果要补 23号到25号的数 ,调度时间这里要选择24号到26号;2、选择要补数的日期范围,选择补23号到25号的数;需要注意的就是上图中的1和2;选择好时间后,点击“确定”即可;
2024-03-20 15:36:13
1355
原创 使用docker搭建faiss向量数据库
主要是创建了一个基于centos7的镜像,然后按照miniconda、faiss-gpu 和 pandas,但是奇怪的是在这里不管是执行pip install 还是conda install,都执行不成功,但是把这个放到容器中执行就可以,咱也不知道为啥。-v:指定一个卷(volume),将宿主机的/home/ndf/faiss/data目录映射到容器的/app/data目录;创建一个名为faiss-gpu的镜像,版本为v1;--name:指定了一个名称为ndf-faiss的容器;1、创建文件夹faiss。
2024-03-18 16:21:50
2055
原创 使用进程池处理数据
那如果需传递其它额外参数,那就得使用partial(偏函数)将处理单个进程作业的函数与参数包起来,示例中就是 func = partial(test_process, len(arr)) 这一行,函数名要放在第一个,后面依次按需放多个参数。那就使用数组呗,将df转为字典数组,其中test_process为处理单个进程作业的函数,param1, param2,param3分别为额外的传参;其中param1, param2,param3分别对应上面的传参,line对应的当前行的数据。2、进程池传递多个参数。
2024-03-01 15:51:36
546
原创 flink1.14.5使用CDH6.3.2的yarn提交作业
使用CDH6.3.2安装了hadoop集群,但是CDH不支持flink的安装,网上有CDH集成flink的文章,大都比较麻烦;但其实我们只需要把flink的作业提交到yarn集群即可,接下来以CDH yarn为基础,flink on yarn模式的配置步骤。
2024-01-15 14:13:11
1945
原创 Linux环境下运行selenium4.14
2) 根据谷歌浏览器版本下载对应的浏览器驱动版本。(这个页面里是高版本的驱动)1)运行下面命令查看浏览器版本。(这个页面是低版本的驱动)
2023-10-31 16:41:56
1677
原创 python爬虫报错:This version of ChromeDriver only supports Chrome version 114
它是一个开源的Java库,以完全自动化的方式执行Selenium WebDriver所需的驱动程序的管理(即下载、设置和维护)。其最新版本提供了其他相关功能,如发现本地系统中安装的浏览器的能力,无缝运行Docker容器中的浏览器,以及监控能力,废话不多说,直接上代码。然后,使用浏览器版本,它试图通过各种方法找到合适的驱动程序版本。修改Python代码,添加executable_path参数,指定浏览器驱动路径。这里下载浏览器对应的驱动,可是我的浏览器是117版本的,这里面根本找不到。2)换浏览器驱动版本;
2023-10-30 14:58:26
1788
原创 Python常用方法
out_path:输出文件路径;datas:字典数组;mode:追加(a)或者覆盖(w)#如果在Python2.x下添加了上面的配置还出现中文乱码,则加以下配置。# 将 jsonl 数据写入文件。在.py文件头部添加这行代码。
2023-06-20 14:48:21
273
原创 Python操作mysql
此处有个坑,就是字符串的格式化 s%必须用括号括起来, 我最初是这样写的:sql = "update gpt_exams_test set question_desc_distinct='%s',question_desc_text='%s' where question_id=%s",结果一直报SQL语法错误。使用pandas的优点是返回的结果是DataFrame,我们可以基于DataFrame取数更方便。单条插入和单条更新其实是一样的,只不过传入的SQL不同而已。# 使用with指定文件编码。
2023-06-20 14:42:12
474
原创 数据库ER图详解
另一种是Crow’s foot notation,主流数据库内的数字表达形式,包括entity之间的关系表达包括0to0,0toMany,1to1和1toMany。一种是Chen's notation,1976年Peter Chen首次提出了Entity Relationship Modeling(实体关系建模)概念。一、Crow’s foot notation符号的含义。将数据库创建表的SQL粘贴进来,点击“插入”即可。1)点击“+”号,选择“高级”->“SQL”点击 “文件” -> “新建”,
2023-04-21 18:07:42
5585
原创 若依前后端分离版集成nacos
服务动态配置与服务注册发现根据公司要求,需要将项目集成到nacos中,当前项目是基于若依前后端分离版开发的,若依的版本为3.8.3,若依框架中整合的springBoot版本为2.5.14。Nacos核心提供两个功能:服务注册与发现,动态配置管理。
2023-02-14 10:35:55
4112
1
原创 Java实现基于Base64的字符串加解密
由于Base64的加密时可逆的,那么直接使用Base64加密显然是不安全的,那么就基于Base64加盐加密,直接上代码。
2022-08-11 17:19:14
1682
原创 若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问
若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问
2022-08-05 18:12:49
5601
原创 使用docker-compose安装flume
使用flume采集应用服务器(华为云)上的日志信息,但运维同学为了方便管理资源,要求使用docker-compose方式安装。而官方docker仓库中的flume不是最新版的,所以打算自己构建flume镜像。 flume依赖于jdk,所以安装flume的容器需要有jdk;那么首先构建一个基于centos7的jdk1.8的镜像centos7-jdk1.8;然后基于镜像centos7-jdk1.8构建安装的flume镜像flume;最后再使用docker-compose安装容器。一、构建centos7-jd
2022-05-13 17:29:11
1622
4
原创 flume使用HDFS Sink将数据导入到Hive中
整体流程:avro Source获取数据,然后通过SPILLABLEMEMORY channel,再然后使用hdfs sink将数据落地到hdfs中,最后通过调度系统执行脚本导入到hive中。最初是打算使用hive sink的,但是使用开发过程中遇到各种坑,各种莫名其妙的错误,最终放弃。1、flume.conflogger.sources = r1logger.sinks = k1logger.channels = c1# Describe/configure the sourcelog
2022-04-26 10:40:17
2344
原创 elasticsearch reindex实践
由于索引mapping有了新的改动,一般线上索引库会使用新的mapping配置新建一个索引,然后把索引别名指向新的索引。1、新建索引PUT /tax_law_clause_library_v5{ "settings": { "analysis": { "filter": { "by_tfr": { "type": "stop", "stopwords": [ " " ...
2022-04-01 15:29:22
2960
原创 docker compose搭建elasticsearch7集群
一、集群介绍系统环境:Centos7.5服务器节点:主机名 IP hadoop03 192.168.1.153 hadoop04 192.168.1.154 hadoop05 192.168.1.155 二、环境准备1、安装docker:略过2、安装docker compose1)使用官方推荐方式(此方式需服务器翻外网)curl -L "https://github.com/docker/compose/releases/download
2022-03-30 16:58:47
4302
1
原创 Ambari2.75集成flink-1.14.4
ambari集成flink详情可参考:Ambari 2.7.5安装Flink1.13.2_不饿同学的博客-CSDN博客_ambari安装flink这里说一下安装过程遇到的问题:1、安装时报错:Error: Error: Unable to run the custom hook script ['/usr/bin/python', '/var/lib/ambari-agent/cache/stack-hooks/before-ANY/scripts/hook.py', 'ANY', ...
2022-03-25 16:10:03
5735
原创 log4j+flume+kafka实时日志处理
将项目中的日志使用log4j打印,然后使用avro方式,收集到flume,最后输出到kafka。flume官方提供了两种方式接受log4j输入源的方式:Log4J Appender和Load Balancing Log4J Appender,flume详情可查看官网:Welcome to Apache Flume — Apache Flume。一、appender1)Log4J Appender参数解释Property Name Default Descripti......
2022-03-24 14:10:06
2294
原创 Ambari2.75集成flume1.9
Ambari2.75默认是没有flume组件,这里需要自定义集成。一:使用如下github地址,将编译的包,以及将flume添加到ambari-server的web页中的包,克隆到ambari-server所在服务器的一个目录中。git clone https://github.com/maikoulin/ambari-flume-service.git二:去官网下载flume的tar包:https://flume.apache.org/download.html。下个 apache-flu
2022-03-23 18:32:01
3243
7
原创 hive数仓数据跨集群迁移
当前集群是在局域网环境,按要求要迁到阿里云集群上(阿里云的服务器,自己搭建的大数据集群),所以要把hive中的数仓数据迁移到新的集群上。前提hive有export和import命令(该功能是从hive0.8开始才有的),可以将hive表中的表结构和数据导入和导出。1、export命令EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path'2、import命令
2022-01-14 11:50:23
2356
原创 Sqoop常见问题
1、sqoop从MySQL导入数据到hive时,报:20/09/18 11:20:33 INFO mapreduce.Job: Job job_1600395587790_0002 failed with state FAILED due to: Application application_1600395587790_0002 failed 2 times due to AM Container for appattempt_1600395587790_0002_000002 exited wit
2021-12-21 16:30:36
4607
原创 Sqoop使用教程
Sqoop安装:(要有hadoop环境)1.上传源码 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz,并解压# tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/2.安装和配置2.1在/etc/profile添加sqoop到环境变量export SQOOP_HOME=/opt/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=$P.
2021-12-21 16:25:17
4624
转载 开发中各种符号的英文名称
* asterisk,multiply,star,pointer 星号,乘号,星,指针+ plus 加号;正号- minus 减号;负号± plus or minus 正负号× is multiplied by 乘号÷ is divided by 除号= is equal to 等于号≠ is not equal to 不等于号≡ is equivalent to 全等于号≌ is equal to or approximately equal to 等于或约等于号≈ is approx
2021-09-06 10:16:09
349
原创 hive任务卡在Tez session hasn‘t been created yet. Opening session
执行一个插入操作,结果任务在这里卡住不动了:Tez session hasn't been created yet. Opening session网上一堆的解决办法,bi
2021-06-02 18:01:14
10605
原创 Java8实现批量生成数仓日期维度数据
公司最近要开始数仓建设,那数仓的一些基础维度表要先生成,这里介绍最重要的维度表之一日期维度表的生成。整个过程分三步走:使用java8的日期类生成日期维度表所需要的各种字段; 将生成的记录使用springboot+mybatis批量插入到mysql中; 使用sqoop将mysql表中的数据导入到hive中;一、mysql中设计日期维度表CREATE TABLE `dim_date` ( `date_id` int(8) DEFAULT NULL COMMENT '日期数字格式,如:20..
2021-05-25 15:57:05
653
原创 Centos7下Azkaban3.73的安装部署
1、软件介绍Azkaban Web 服务器:azkaban-web-server-3.73.1.tar.gzAzkaban Excutor 执行服务器:azkaban-exec-server-3.73.1.tar.gzAzkaban 初始化脚本文件:azkaban-db-3.73.1.tar.gz2、软件下载下载地址:http://azkaban.github.io/downloads.html百度网盘链接:https://pan.baidu.com/s/13W-HuNyxGw9zz
2021-05-07 14:01:21
443
原创 最新版Ambari2.75安装及HDP3.1.5集群搭建
最近打算使用ambari搭建集群,却突然发现Cloudera相关软件包括HDP、CDH都收费了,都需要有效的订阅,并且只能通过付费墙进行访问(官宣地址:https://cn.cloudera.com/downloads/paywall-expansion.html#)。还好笔者千辛万苦在内外网找了两天才搞到最新版ambari2.7.5和HDP3.1.5的二进制安装包。以下详细介绍ambari的安装,及使用ambari搭建HDP集群的详细步骤,以及遇到的各种问题;文末有提供ambari2.7.5和HDP3.1
2021-05-06 10:14:11
9918
12
从mysql数据库批量生成数据库word文档
2022-08-09
azkaban-3.73.zip
2021-05-19
ambari2.7.5百度网盘下载地址.txt
2021-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人