码道功成-CSDN博客

原创基于Docker容器部署DeepSeek-R1-Distill-Qwen-7B

首先打开，然后搜索DeepSeek-R1-Distill-Qwen-7B，进入详情页官方推荐使用vllm来启动，但是手动搭建vllm环境容易出各种问题，我们这里直接找一个vllm的Docker镜像。

2025-04-03 16:38:57 764

原创 QwQ-32B-GGUF模型部署

由于硬件只有两张4090卡，但是领导还想要满血版32b的性能，那就只能部署GGUF版。据说QwQ-32B比Deepseek-R1-32b要更牛逼一些，所以就选择部署QwQ-32B-GGUF，根据最终的测试--针对长文本（3-5M大小）的理解，QwQ-32B-GGUF确实要比Deepseek-R1-32b-GGUF好一些。是阿里官方发布的原始模型，通常以 PyTorch 权重文件（如.bin或）形式存储，需依赖深度学习框架（如 Hugging Face Transformers）加载。

2025-04-01 17:43:42 1165

原创快速创建基于Scala的flink开发项目

，所以这里记录一下基于Scala版本的快速创建。

2025-02-28 10:52:38 359

原创 selenium在Linux环境下截屏（save_screenshot）中文乱码的问题

options.add_argument("--lang=zh-CN") # 设置语言为中文。1、设置浏览器options选项。3、安装字体渲染引擎。

2025-01-08 17:24:25 764

原创 selenium获取webdriver，并规避反爬

以上代码获取到webdriver，并添加selenium-stealth规避反爬。

2024-12-19 15:35:52 1151

原创使用ddddocr进行网站验证码识别

其中，第1步和第2步，按理说页可以通过find_element方法查找到验证码图片，再获取src属性并保存的方式处理。2、查找到验证码图片元素，获取到元素的location和size信息，基于上一步的图片裁剪出验证码图片；这里使用ddddocr将验证码图片中的文字识别；3、调用ddddocr进行识别；1、将登录页保存为图片；

2024-12-19 15:24:07 738

原创修改anaconda虚拟环境默认配置

这样，以后创建新的虚拟环境就不会在C盘了！

2024-08-06 11:21:02 326

原创 vscode连接docker容器并调试Python代码

而开发的项目又无法在本地运行（需要GPU），那调试代码的话就很难受了，好在vscode足够强大，使用插件可以连接docker容器，并基于容器运行调试debug代码。点击左下角绿色的ssh信息，然后弹出让选择远程连接的选项，找到“Dev Containers”分组下的“Attach to Running Container”（当然前提是你的docker容器已经启动起来了）。然后，就能开到连接的服务器上的所有docker容器了，单击选择你的docker容器即可；一、安装Dev Containers插件。

2024-07-18 18:20:33 2944 1

原创 vscode及pycharm配置Python文件模板

第一步，依次点击“File”->“preference”->“Configure User Snippets”，在弹出的框中输入Python，打开python.json 文件。第三步，把“Enable Live Templates”的勾选中，点击“apply”，“OK”即可，新建一个文件，模板内容会自动插入到文件中。第三步，新建一个文件，输入"pt"，然后按下"Tab"键，模板内容会自动插入到文件中。二、pycharm配置方法。一、vscode配置方法。

2024-07-18 18:19:41 1262

原创 pandas中loc、iloc、at、iat的区别

废话不多说，直接上代码。

2024-04-25 15:47:16 510 2

原创 starrocks的fe节点启动不起来的解决办法

fe节点启动报错：Do not specify the helper node to FE itself. Please specify it to the existing running Leader or Follower FE。4、启动该节点：./bin/start_fe.sh --helper fe_leader_ip:9010 --daemon。1、先删除掉该fe节点：ALTER SYSTEM DROP FOLLOWER "host:edit_log_port"

2024-04-10 15:11:30 1354

原创 DolphinScheduler 补数

在工作流实例里也可以看到调度的情况，默认是调度时间范围内的每天8点，这是因为我的定时任务下线了，按照ds默认的时间，当然我这是T+1的，至于哪个时间点执行都无所谓了。不过这里要注意的一点是我的数仓是T+1的，所以启动参数传的是当前时间的前一天，那调度日期选择23号到25号，其实最后跑的数是22号到24号的数据。也就是如果要补 23号到25号的数，调度时间这里要选择24号到26号；2、选择要补数的日期范围，选择补23号到25号的数；需要注意的就是上图中的1和2；选择好时间后，点击“确定”即可；

2024-03-20 15:36:13 1391

原创使用docker搭建faiss向量数据库

主要是创建了一个基于centos7的镜像，然后按照miniconda、faiss-gpu 和 pandas，但是奇怪的是在这里不管是执行pip install 还是conda install，都执行不成功，但是把这个放到容器中执行就可以，咱也不知道为啥。-v：指定一个卷（volume），将宿主机的/home/ndf/faiss/data目录映射到容器的/app/data目录；创建一个名为faiss-gpu的镜像，版本为v1；--name：指定了一个名称为ndf-faiss的容器；1、创建文件夹faiss。

2024-03-18 16:21:50 2098

原创使用进程池处理数据

那如果需传递其它额外参数，那就得使用partial（偏函数）将处理单个进程作业的函数与参数包起来，示例中就是 func = partial(test_process, len(arr)) 这一行，函数名要放在第一个，后面依次按需放多个参数。那就使用数组呗，将df转为字典数组，其中test_process为处理单个进程作业的函数，param1， param2，param3分别为额外的传参；其中param1， param2，param3分别对应上面的传参，line对应的当前行的数据。2、进程池传递多个参数。

2024-03-01 15:51:36 549

原创 flink1.14.5使用CDH6.3.2的yarn提交作业

使用CDH6.3.2安装了hadoop集群，但是CDH不支持flink的安装，网上有CDH集成flink的文章，大都比较麻烦；但其实我们只需要把flink的作业提交到yarn集群即可，接下来以CDH yarn为基础，flink on yarn模式的配置步骤。

2024-01-15 14:13:11 1962

原创 Linux环境下运行selenium4.14

2）根据谷歌浏览器版本下载对应的浏览器驱动版本。（这个页面里是高版本的驱动）1）运行下面命令查看浏览器版本。（这个页面是低版本的驱动）

2023-10-31 16:41:56 1720

原创 python爬虫报错：This version of ChromeDriver only supports Chrome version 114

它是一个开源的Java库，以完全自动化的方式执行Selenium WebDriver所需的驱动程序的管理(即下载、设置和维护)。其最新版本提供了其他相关功能，如发现本地系统中安装的浏览器的能力，无缝运行Docker容器中的浏览器，以及监控能力，废话不多说，直接上代码。然后，使用浏览器版本，它试图通过各种方法找到合适的驱动程序版本。修改Python代码，添加executable_path参数，指定浏览器驱动路径。这里下载浏览器对应的驱动，可是我的浏览器是117版本的，这里面根本找不到。2）换浏览器驱动版本；

2023-10-30 14:58:26 1793

原创 pandas使用笔记

【代码】pandas使用笔记。

2023-09-27 14:15:21 307

原创 Python反爬取访问验证处理

这种验证方式没找到绕过去的方法，那就只能用最笨的办法，弹出验证框后，将等待时间延长，然后手动点击验证。

2023-07-07 15:02:04 1177

原创 Python常用方法

out_path：输出文件路径；datas：字典数组；mode：追加（a）或者覆盖（w）#如果在Python2.x下添加了上面的配置还出现中文乱码，则加以下配置。# 将 jsonl 数据写入文件。在.py文件头部添加这行代码。

2023-06-20 14:48:21 279

原创 Python操作mysql

此处有个坑，就是字符串的格式化 s%必须用括号括起来，我最初是这样写的：sql = "update gpt_exams_test set question_desc_distinct='%s',question_desc_text='%s' where question_id=%s"，结果一直报SQL语法错误。使用pandas的优点是返回的结果是DataFrame，我们可以基于DataFrame取数更方便。单条插入和单条更新其实是一样的，只不过传入的SQL不同而已。# 使用with指定文件编码。

2023-06-20 14:42:12 476

原创数据库ER图详解

另一种是Crow’s foot notation，主流数据库内的数字表达形式，包括entity之间的关系表达包括0to0,0toMany,1to1和1toMany。一种是Chen's notation，1976年Peter Chen首次提出了Entity Relationship Modeling（实体关系建模）概念。一、Crow’s foot notation符号的含义。将数据库创建表的SQL粘贴进来，点击“插入”即可。1）点击“+”号，选择“高级”->“SQL”点击 “文件” -> “新建”，

2023-04-21 18:07:42 5654

原创若依前后端分离版集成nacos

服务动态配置与服务注册发现根据公司要求，需要将项目集成到nacos中，当前项目是基于若依前后端分离版开发的，若依的版本为3.8.3，若依框架中整合的springBoot版本为2.5.14。Nacos核心提供两个功能：服务注册与发现，动态配置管理。

2023-02-14 10:35:55 4170 1

原创 Java实现基于Base64的字符串加解密

由于Base64的加密时可逆的，那么直接使用Base64加密显然是不安全的，那么就基于Base64加盐加密，直接上代码。

2022-08-11 17:19:14 1690

原创若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问

若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问

2022-08-05 18:12:49 5627

原创使用docker-compose安装flume

使用flume采集应用服务器（华为云）上的日志信息，但运维同学为了方便管理资源，要求使用docker-compose方式安装。而官方docker仓库中的flume不是最新版的，所以打算自己构建flume镜像。 flume依赖于jdk，所以安装flume的容器需要有jdk；那么首先构建一个基于centos7的jdk1.8的镜像centos7-jdk1.8；然后基于镜像centos7-jdk1.8构建安装的flume镜像flume；最后再使用docker-compose安装容器。一、构建centos7-jd

2022-05-13 17:29:11 1632 4

原创 flume使用HDFS Sink将数据导入到Hive中

整体流程：avro Source获取数据，然后通过SPILLABLEMEMORY channel，再然后使用hdfs sink将数据落地到hdfs中，最后通过调度系统执行脚本导入到hive中。最初是打算使用hive sink的，但是使用开发过程中遇到各种坑，各种莫名其妙的错误，最终放弃。1、flume.conflogger.sources = r1logger.sinks = k1logger.channels = c1# Describe/configure the sourcelog

2022-04-26 10:40:17 2356

原创 elasticsearch reindex实践

由于索引mapping有了新的改动，一般线上索引库会使用新的mapping配置新建一个索引，然后把索引别名指向新的索引。1、新建索引PUT /tax_law_clause_library_v5{ "settings": { "analysis": { "filter": { "by_tfr": { "type": "stop", "stopwords": [ " " ...

2022-04-01 15:29:22 2969

原创 docker compose搭建elasticsearch7集群

一、集群介绍系统环境：Centos7.5服务器节点：主机名 IP hadoop03 192.168.1.153 hadoop04 192.168.1.154 hadoop05 192.168.1.155 二、环境准备1、安装docker：略过2、安装docker compose1）使用官方推荐方式（此方式需服务器翻外网）curl -L "https://github.com/docker/compose/releases/download

2022-03-30 16:58:47 4310 1

原创 Ambari2.75集成flink-1.14.4

ambari集成flink详情可参考：Ambari 2.7.5安装Flink1.13.2_不饿同学的博客-CSDN博客_ambari安装flink这里说一下安装过程遇到的问题：1、安装时报错：Error: Error: Unable to run the custom hook script ['/usr/bin/python', '/var/lib/ambari-agent/cache/stack-hooks/before-ANY/scripts/hook.py', 'ANY', ...

2022-03-25 16:10:03 5743

原创 log4j+flume+kafka实时日志处理

将项目中的日志使用log4j打印，然后使用avro方式，收集到flume，最后输出到kafka。flume官方提供了两种方式接受log4j输入源的方式：Log4J Appender和Load Balancing Log4J Appender，flume详情可查看官网：Welcome to Apache Flume — Apache Flume。一、appender1）Log4J Appender参数解释Property Name Default Descripti......

2022-03-24 14:10:06 2302

原创 Ambari2.75集成flume1.9

Ambari2.75默认是没有flume组件，这里需要自定义集成。一：使用如下github地址，将编译的包，以及将flume添加到ambari-server的web页中的包，克隆到ambari-server所在服务器的一个目录中。git clone https://github.com/maikoulin/ambari-flume-service.git二：去官网下载flume的tar包：https://flume.apache.org/download.html。下个 apache-flu

2022-03-23 18:32:01 3251 7

原创 hive数仓数据跨集群迁移

当前集群是在局域网环境，按要求要迁到阿里云集群上（阿里云的服务器，自己搭建的大数据集群），所以要把hive中的数仓数据迁移到新的集群上。前提hive有export和import命令（该功能是从hive0.8开始才有的），可以将hive表中的表结构和数据导入和导出。1、export命令EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path'2、import命令

2022-01-14 11:50:23 2364

原创 Sqoop常见问题

1、sqoop从MySQL导入数据到hive时，报：20/09/18 11:20:33 INFO mapreduce.Job: Job job_1600395587790_0002 failed with state FAILED due to: Application application_1600395587790_0002 failed 2 times due to AM Container for appattempt_1600395587790_0002_000002 exited wit

2021-12-21 16:30:36 4618

原创 Sqoop使用教程

Sqoop安装：（要有hadoop环境）1.上传源码 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz，并解压# tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/2.安装和配置2.1在/etc/profile添加sqoop到环境变量export SQOOP_HOME=/opt/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=$P.

2021-12-21 16:25:17 4630

转载开发中各种符号的英文名称

* asterisk,multiply,star,pointer 星号,乘号,星,指针+ plus 加号；正号- minus 减号；负号± plus or minus 正负号× is multiplied by 乘号÷ is divided by 除号＝ is equal to 等于号≠ is not equal to 不等于号≡ is equivalent to 全等于号≌ is equal to or approximately equal to 等于或约等于号≈ is approx

2021-09-06 10:16:09 360

原创 hive任务卡在Tez session hasn‘t been created yet. Opening session

执行一个插入操作，结果任务在这里卡住不动了：Tez session hasn't been created yet. Opening session网上一堆的解决办法，bi

2021-06-02 18:01:14 10650

原创 Java8实现批量生成数仓日期维度数据

公司最近要开始数仓建设，那数仓的一些基础维度表要先生成，这里介绍最重要的维度表之一日期维度表的生成。整个过程分三步走：使用java8的日期类生成日期维度表所需要的各种字段；将生成的记录使用springboot+mybatis批量插入到mysql中；使用sqoop将mysql表中的数据导入到hive中；一、mysql中设计日期维度表CREATE TABLE `dim_date` ( `date_id` int(8) DEFAULT NULL COMMENT '日期数字格式，如：20..

2021-05-25 15:57:05 657

原创 Centos7下Azkaban3.73的安装部署

1、软件介绍Azkaban Web 服务器：azkaban-web-server-3.73.1.tar.gzAzkaban Excutor 执行服务器：azkaban-exec-server-3.73.1.tar.gzAzkaban 初始化脚本文件：azkaban-db-3.73.1.tar.gz2、软件下载下载地址:http://azkaban.github.io/downloads.html百度网盘链接：https://pan.baidu.com/s/13W-HuNyxGw9zz

2021-05-07 14:01:21 448

原创最新版Ambari2.75安装及HDP3.1.5集群搭建

最近打算使用ambari搭建集群，却突然发现Cloudera相关软件包括HDP、CDH都收费了，都需要有效的订阅，并且只能通过付费墙进行访问（官宣地址：https://cn.cloudera.com/downloads/paywall-expansion.html#）。还好笔者千辛万苦在内外网找了两天才搞到最新版ambari2.7.5和HDP3.1.5的二进制安装包。以下详细介绍ambari的安装，及使用ambari搭建HDP集群的详细步骤，以及遇到的各种问题；文末有提供ambari2.7.5和HDP3.1

2021-05-06 10:14:11 9936 12

MyEclipse快捷键大全

精心整理的、最全的myeclipse快捷键大全

2013-12-13

从mysql数据库批量生成数据库word文档

介绍从mysql数据库导数据生成数据库word文档软件架构软件架构说明 springboot + mybatis 使用说明修改application.properties里面数据库连接配置，配置生成的文件地址，数据库名生成数据库下所有表文档 1）启动项目，并访问 http://localhost:8888/createAll 2）运行单元测试 createAll 方法生成关键字模糊匹配到的数据表文档 1）启动项目，并访问 http://localhost:8888/createMatch （需传入参数） 2）运行单元测试 createMatch 方法

2022-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

MyEclipse快捷键大全

从mysql数据库批量生成数据库word文档

dim_date.rar

ambari2.7.5百度网盘下载地址.txt

azkaban-3.73.zip

平面设计-看图学配色-配色教程

空空如也