自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (6)
  • 收藏
  • 关注

原创 基于Docker容器部署DeepSeek-R1-Distill-Qwen-7B

首先打开,然后搜索DeepSeek-R1-Distill-Qwen-7B,进入详情页官方推荐使用vllm来启动,但是手动搭建vllm环境容易出各种问题,我们这里直接找一个vllm的Docker镜像。

2025-04-03 16:38:57 730

原创 QwQ-32B-GGUF模型部署

由于硬件只有两张4090卡,但是领导还想要满血版32b的性能,那就只能部署GGUF版。据说QwQ-32B比Deepseek-R1-32b要更牛逼一些,所以就选择部署QwQ-32B-GGUF,根据最终的测试--针对长文本(3-5M大小)的理解,QwQ-32B-GGUF确实要比Deepseek-R1-32b-GGUF好一些。是阿里官方发布的原始模型,通常以 PyTorch 权重文件(如.bin或)形式存储,需依赖深度学习框架(如 Hugging Face Transformers)加载。

2025-04-01 17:43:42 1136

原创 快速创建基于Scala的flink开发项目

,所以这里记录一下基于Scala版本的快速创建。

2025-02-28 10:52:38 351

原创 selenium在Linux环境下截屏(save_screenshot)中文乱码的问题

options.add_argument("--lang=zh-CN") # 设置语言为中文。1、设置浏览器options选项。3、安装字体渲染引擎。

2025-01-08 17:24:25 746

原创 selenium获取webdriver,并规避反爬

以上代码获取到webdriver,并添加selenium-stealth规避反爬。

2024-12-19 15:35:52 1138

原创 使用ddddocr进行网站验证码识别

其中,第1步和第2步,按理说页可以通过find_element方法查找到验证码图片,再获取src属性并保存的方式处理。2、查找到验证码图片元素,获取到元素的location和size信息,基于上一步的图片裁剪出验证码图片;这里使用ddddocr将验证码图片中的文字识别;3、调用ddddocr进行识别;1、将登录页保存为图片;

2024-12-19 15:24:07 657

原创 修改anaconda虚拟环境默认配置

这样,以后创建新的虚拟环境就不会在C盘了!

2024-08-06 11:21:02 304

原创 vscode连接docker容器并调试Python代码

而开发的项目又无法在本地运行(需要GPU),那调试代码的话就很难受了,好在vscode足够强大,使用插件可以连接docker容器,并基于容器运行调试debug代码。点击左下角绿色的ssh信息,然后弹出让选择远程连接的选项,找到“Dev Containers”分组下的“Attach to Running Container”(当然前提是你的docker容器已经启动起来了)。然后,就能开到连接的服务器上的所有docker容器了,单击选择你的docker容器即可;一、安装Dev Containers插件。

2024-07-18 18:20:33 2765 1

原创 vscode及pycharm配置Python文件模板

第一步,依次点击“File”->“preference”->“Configure User Snippets”,在弹出的框中输入Python,打开python.json 文件。第三步,把“Enable Live Templates”的勾选中,点击“apply”,“OK”即可,新建一个文件,模板内容会自动插入到文件中。第三步,新建一个文件,输入"pt",然后按下"Tab"键,模板内容会自动插入到文件中。二、pycharm配置方法。一、vscode配置方法。

2024-07-18 18:19:41 1239

原创 pandas中loc、iloc、at、iat的区别

废话不多说,直接上代码。

2024-04-25 15:47:16 500 2

原创 starrocks的fe节点启动不起来的解决办法

fe节点启动报错:Do not specify the helper node to FE itself. Please specify it to the existing running Leader or Follower FE。4、启动该节点:./bin/start_fe.sh --helper fe_leader_ip:9010 --daemon。1、先删除掉该fe节点:ALTER SYSTEM DROP FOLLOWER "host:edit_log_port"

2024-04-10 15:11:30 1305

原创 DolphinScheduler 补数

在工作流实例里也可以看到调度的情况,默认是调度时间范围内的每天8点,这是因为我的定时任务下线了,按照ds默认的时间,当然我这是T+1的,至于哪个时间点执行都无所谓了。不过这里要注意的一点是我的数仓是T+1的,所以启动参数传的是当前时间的前一天,那调度日期选择23号到25号,其实最后跑的数是22号到24号的数据。也就是如果要补 23号到25号的数 ,调度时间这里要选择24号到26号;2、选择要补数的日期范围,选择补23号到25号的数;需要注意的就是上图中的1和2;选择好时间后,点击“确定”即可;

2024-03-20 15:36:13 1355

原创 使用docker搭建faiss向量数据库

主要是创建了一个基于centos7的镜像,然后按照miniconda、faiss-gpu 和 pandas,但是奇怪的是在这里不管是执行pip install 还是conda install,都执行不成功,但是把这个放到容器中执行就可以,咱也不知道为啥。-v:指定一个卷(volume),将宿主机的/home/ndf/faiss/data目录映射到容器的/app/data目录;创建一个名为faiss-gpu的镜像,版本为v1;--name:指定了一个名称为ndf-faiss的容器;1、创建文件夹faiss。

2024-03-18 16:21:50 2055

原创 使用进程池处理数据

那如果需传递其它额外参数,那就得使用partial(偏函数)将处理单个进程作业的函数与参数包起来,示例中就是 func = partial(test_process, len(arr)) 这一行,函数名要放在第一个,后面依次按需放多个参数。那就使用数组呗,将df转为字典数组,其中test_process为处理单个进程作业的函数,param1, param2,param3分别为额外的传参;其中param1, param2,param3分别对应上面的传参,line对应的当前行的数据。2、进程池传递多个参数。

2024-03-01 15:51:36 546

原创 flink1.14.5使用CDH6.3.2的yarn提交作业

使用CDH6.3.2安装了hadoop集群,但是CDH不支持flink的安装,网上有CDH集成flink的文章,大都比较麻烦;但其实我们只需要把flink的作业提交到yarn集群即可,接下来以CDH yarn为基础,flink on yarn模式的配置步骤。

2024-01-15 14:13:11 1945

原创 Linux环境下运行selenium4.14

2) 根据谷歌浏览器版本下载对应的浏览器驱动版本。(这个页面里是高版本的驱动)1)运行下面命令查看浏览器版本。(这个页面是低版本的驱动)

2023-10-31 16:41:56 1677

原创 python爬虫报错:This version of ChromeDriver only supports Chrome version 114

它是一个开源的Java库,以完全自动化的方式执行Selenium WebDriver所需的驱动程序的管理(即下载、设置和维护)。其最新版本提供了其他相关功能,如发现本地系统中安装的浏览器的能力,无缝运行Docker容器中的浏览器,以及监控能力,废话不多说,直接上代码。然后,使用浏览器版本,它试图通过各种方法找到合适的驱动程序版本。修改Python代码,添加executable_path参数,指定浏览器驱动路径。这里下载浏览器对应的驱动,可是我的浏览器是117版本的,这里面根本找不到。2)换浏览器驱动版本;

2023-10-30 14:58:26 1788

原创 pandas使用笔记

【代码】pandas使用笔记。

2023-09-27 14:15:21 300

原创 Python反爬取访问验证处理

这种验证方式没找到绕过去的方法,那就只能用最笨的办法,弹出验证框后,将等待时间延长,然后手动点击验证。

2023-07-07 15:02:04 1161

原创 Python常用方法

out_path:输出文件路径;datas:字典数组;mode:追加(a)或者覆盖(w)#如果在Python2.x下添加了上面的配置还出现中文乱码,则加以下配置。# 将 jsonl 数据写入文件。在.py文件头部添加这行代码。

2023-06-20 14:48:21 273

原创 Python操作mysql

此处有个坑,就是字符串的格式化 s%必须用括号括起来, 我最初是这样写的:sql = "update gpt_exams_test set question_desc_distinct='%s',question_desc_text='%s' where question_id=%s",结果一直报SQL语法错误。使用pandas的优点是返回的结果是DataFrame,我们可以基于DataFrame取数更方便。单条插入和单条更新其实是一样的,只不过传入的SQL不同而已。# 使用with指定文件编码。

2023-06-20 14:42:12 474

原创 数据库ER图详解

另一种是Crow’s foot notation,主流数据库内的数字表达形式,包括entity之间的关系表达包括0to0,0toMany,1to1和1toMany。一种是Chen's notation,1976年Peter Chen首次提出了Entity Relationship Modeling(实体关系建模)概念。一、Crow’s foot notation符号的含义。将数据库创建表的SQL粘贴进来,点击“插入”即可。1)点击“+”号,选择“高级”->“SQL”点击 “文件” -> “新建”,

2023-04-21 18:07:42 5585

原创 若依前后端分离版集成nacos

服务动态配置与服务注册发现根据公司要求,需要将项目集成到nacos中,当前项目是基于若依前后端分离版开发的,若依的版本为3.8.3,若依框架中整合的springBoot版本为2.5.14。Nacos核心提供两个功能:服务注册与发现,动态配置管理。

2023-02-14 10:35:55 4112 1

原创 Java实现基于Base64的字符串加解密

由于Base64的加密时可逆的,那么直接使用Base64加密显然是不安全的,那么就基于Base64加盐加密,直接上代码。

2022-08-11 17:19:14 1682

原创 若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问

若依框架前后端分离版v3.8.3使用代码生成工具生成的接口无法通过swagger访问

2022-08-05 18:12:49 5601

原创 使用docker-compose安装flume

使用flume采集应用服务器(华为云)上的日志信息,但运维同学为了方便管理资源,要求使用docker-compose方式安装。而官方docker仓库中的flume不是最新版的,所以打算自己构建flume镜像。 flume依赖于jdk,所以安装flume的容器需要有jdk;那么首先构建一个基于centos7的jdk1.8的镜像centos7-jdk1.8;然后基于镜像centos7-jdk1.8构建安装的flume镜像flume;最后再使用docker-compose安装容器。一、构建centos7-jd

2022-05-13 17:29:11 1622 4

原创 flume使用HDFS Sink将数据导入到Hive中

整体流程:avro Source获取数据,然后通过SPILLABLEMEMORY channel,再然后使用hdfs sink将数据落地到hdfs中,最后通过调度系统执行脚本导入到hive中。最初是打算使用hive sink的,但是使用开发过程中遇到各种坑,各种莫名其妙的错误,最终放弃。1、flume.conflogger.sources = r1logger.sinks = k1logger.channels = c1# Describe/configure the sourcelog

2022-04-26 10:40:17 2344

原创 elasticsearch reindex实践

由于索引mapping有了新的改动,一般线上索引库会使用新的mapping配置新建一个索引,然后把索引别名指向新的索引。1、新建索引PUT /tax_law_clause_library_v5{ "settings": { "analysis": { "filter": { "by_tfr": { "type": "stop", "stopwords": [ " " ...

2022-04-01 15:29:22 2960

原创 docker compose搭建elasticsearch7集群

一、集群介绍系统环境:Centos7.5服务器节点:主机名 IP hadoop03 192.168.1.153 hadoop04 192.168.1.154 hadoop05 192.168.1.155 二、环境准备1、安装docker:略过2、安装docker compose1)使用官方推荐方式(此方式需服务器翻外网)curl -L "https://github.com/docker/compose/releases/download

2022-03-30 16:58:47 4302 1

原创 Ambari2.75集成flink-1.14.4

ambari集成flink详情可参考:Ambari 2.7.5安装Flink1.13.2_不饿同学的博客-CSDN博客_ambari安装flink这里说一下安装过程遇到的问题:1、安装时报错:Error: Error: Unable to run the custom hook script ['/usr/bin/python', '/var/lib/ambari-agent/cache/stack-hooks/before-ANY/scripts/hook.py', 'ANY', ...

2022-03-25 16:10:03 5735

原创 log4j+flume+kafka实时日志处理

将项目中的日志使用log4j打印,然后使用avro方式,收集到flume,最后输出到kafka。flume官方提供了两种方式接受log4j输入源的方式:Log4J Appender和Load Balancing Log4J Appender,flume详情可查看官网:Welcome to Apache Flume — Apache Flume。一、appender1)Log4J Appender参数解释Property Name Default Descripti......

2022-03-24 14:10:06 2294

原创 Ambari2.75集成flume1.9

Ambari2.75默认是没有flume组件,这里需要自定义集成。一:使用如下github地址,将编译的包,以及将flume添加到ambari-server的web页中的包,克隆到ambari-server所在服务器的一个目录中。git clone https://github.com/maikoulin/ambari-flume-service.git二:去官网下载flume的tar包:https://flume.apache.org/download.html。下个 apache-flu

2022-03-23 18:32:01 3243 7

原创 hive数仓数据跨集群迁移

当前集群是在局域网环境,按要求要迁到阿里云集群上(阿里云的服务器,自己搭建的大数据集群),所以要把hive中的数仓数据迁移到新的集群上。前提hive有export和import命令(该功能是从hive0.8开始才有的),可以将hive表中的表结构和数据导入和导出。1、export命令EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path'2、import命令

2022-01-14 11:50:23 2356

原创 Sqoop常见问题

1、sqoop从MySQL导入数据到hive时,报:20/09/18 11:20:33 INFO mapreduce.Job: Job job_1600395587790_0002 failed with state FAILED due to: Application application_1600395587790_0002 failed 2 times due to AM Container for appattempt_1600395587790_0002_000002 exited wit

2021-12-21 16:30:36 4607

原创 Sqoop使用教程

Sqoop安装:(要有hadoop环境)1.上传源码 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz,并解压# tar -zxvf sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/2.安装和配置2.1在/etc/profile添加sqoop到环境变量export SQOOP_HOME=/opt/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=$P.

2021-12-21 16:25:17 4624

转载 开发中各种符号的英文名称

* asterisk,multiply,star,pointer 星号,乘号,星,指针+ plus 加号;正号- minus 减号;负号± plus or minus 正负号× is multiplied by 乘号÷ is divided by 除号= is equal to 等于号≠ is not equal to 不等于号≡ is equivalent to 全等于号≌ is equal to or approximately equal to 等于或约等于号≈ is approx

2021-09-06 10:16:09 349

原创 hive任务卡在Tez session hasn‘t been created yet. Opening session

执行一个插入操作,结果任务在这里卡住不动了:Tez session hasn't been created yet. Opening session网上一堆的解决办法,bi

2021-06-02 18:01:14 10605

原创 Java8实现批量生成数仓日期维度数据

公司最近要开始数仓建设,那数仓的一些基础维度表要先生成,这里介绍最重要的维度表之一日期维度表的生成。整个过程分三步走:使用java8的日期类生成日期维度表所需要的各种字段; 将生成的记录使用springboot+mybatis批量插入到mysql中; 使用sqoop将mysql表中的数据导入到hive中;一、mysql中设计日期维度表CREATE TABLE `dim_date` ( `date_id` int(8) DEFAULT NULL COMMENT '日期数字格式,如:20..

2021-05-25 15:57:05 653

原创 Centos7下Azkaban3.73的安装部署

1、软件介绍Azkaban Web 服务器:azkaban-web-server-3.73.1.tar.gzAzkaban Excutor 执行服务器:azkaban-exec-server-3.73.1.tar.gzAzkaban 初始化脚本文件:azkaban-db-3.73.1.tar.gz2、软件下载下载地址:http://azkaban.github.io/downloads.html百度网盘链接:https://pan.baidu.com/s/13W-HuNyxGw9zz

2021-05-07 14:01:21 443

原创 最新版Ambari2.75安装及HDP3.1.5集群搭建

最近打算使用ambari搭建集群,却突然发现Cloudera相关软件包括HDP、CDH都收费了,都需要有效的订阅,并且只能通过付费墙进行访问(官宣地址:https://cn.cloudera.com/downloads/paywall-expansion.html#)。还好笔者千辛万苦在内外网找了两天才搞到最新版ambari2.7.5和HDP3.1.5的二进制安装包。以下详细介绍ambari的安装,及使用ambari搭建HDP集群的详细步骤,以及遇到的各种问题;文末有提供ambari2.7.5和HDP3.1

2021-05-06 10:14:11 9918 12

从mysql数据库批量生成数据库word文档

介绍 从mysql数据库导数据生成数据库word文档 软件架构 软件架构说明 springboot + mybatis 使用说明 修改application.properties里面数据库连接配置,配置生成的文件地址,数据库名 生成数据库下所有表文档 1)启动项目,并访问 http://localhost:8888/createAll 2)运行单元测试 createAll 方法 生成关键字模糊匹配到的数据表文档 1)启动项目,并访问 http://localhost:8888/createMatch (需传入参数) 2)运行单元测试 createMatch 方法

2022-08-09

dim_date.rar

使用java8+springboot+mybatis生成日期维度数据,项目下载到本地导入idea即可使用

2021-05-25

azkaban-3.73.zip

包括azkaban-db-3.73.1.tar.gz、azkaban-exec-server-3.73.1.tar.gz、azkaban-solo-server-3.73.1.tar.gz、azkaban-web-server-3.73.1.tar.gz

2021-05-19

ambari2.7.5百度网盘下载地址.txt

Cloudera相关软件包括HDP、CDH都收费了,还好笔者千辛万苦在找了两天才搞到最新版ambari2.7.5和HDP3.1.5的二进制安装包;并整合了ambari搭建集群中使用的其它软件;由于软件包较大(9个多G),这里放到了百度网盘里(地址永久有效),大家可自行下载!

2021-05-18

平面设计-看图学配色-配色教程

平面设计学习必备,简单易懂,轻松学会配色、设计

2013-12-13

MyEclipse快捷键大全

精心整理的、最全的myeclipse快捷键大全

2013-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除