qq_22253209-CSDN博客

原创大模型本地部署及本地知识库构建

ollama：Ollama是一个在本地运行的大预言模型的的工具，可以再不同的操作系统商安装。可以认为ollama就是一个LLM的容器管理工具，和Docker有点类似。LLMs：大语言模型模型很多，像现在比较火的、开源的deepSeek R1模型等，由于在本地电脑上不是我们可以选择14b以下的版本。CherryStudioAI 是一款强大的多模型 AI 助手,支持 iOS、macOS 和 Windows 平台。快速切换多个先进的 LLM 模型,提升工作学习效率。支持多个第三方模型的调用。

2025-02-21 15:21:48 470

原创基于SeaTunnel同步mysql数据

SeaTunnel 使用 YAML 或 JSON 格式的配置文件来定义数据源、转换逻辑和数据目标。以下是一个示例配置文件，用于将 MySQL 数据同步到另一个 MySQL 数据库，配置任务脚本job.conf。将 MySQL 数据同步到另一个 MySQL 数据库非常简单。SeaTunnel 提供了 MySQL 数据源（Source）和数据目标（Sink）的支持，通过配置文件即可完成数据同步任务。如果需要使用 Spark 或 Flink 引擎，请提前安装并配置。表示支持部分ddl的配置。

2025-02-08 17:11:51 787

原创基于SeaTunnel同步数据

旨在简化大规模数据的抽取、转换和加载（ETL）过程。它支持从多种数据源（如数据库、消息队列、文件系统等）中提取数据，并将数据写入到目标存储或分析系统中。基于分布式计算框架（如 Apache Spark、Flink）构建，能够高效处理大规模数据。大数据存储：HDFS、Hive、HBase、Kafka 等。文件系统：CSV、JSON、Parquet、ORC 等。提供丰富的数据转换功能，如字段映射、过滤、聚合、去重等。：数据转换插件，负责对数据进行清洗、转换和计算。

2025-02-08 17:01:04 531

原创 hive对100亿数据的处理

项目需求：需要对人员轨迹信息进行处理，而且人员信息与运营商网络有关。开始，hive的计算引擎是Spark，由于计算资源有限（只有3台机器），sql运行的过程中出现各种OOM，于是将计算引擎换位MR，数据按月计算。在计算的过程中，使用了3个UDF函数。原始数据如下：(1)设备轨迹信息表 (2)设备运营商网络表 (3)原始表关联add jar /home/hongwe...

2025-02-08 10:09:59 289 1

原创 idea集成deepSeek

idea集成的插件较多，这里我们选择集成codeGPT，然后将底层的大模型换成deepSeek。，申请开发的API keys。（2）deepSeek账号设置。（1）下载codeGPT插件。

2025-02-08 10:05:50 482

原创 Oracle中导入dmp文件

在Oracle中（scott需要dba权限）：imp scott/oracle@orcl11gBigDataTest1 file=/dfs/data/tabledatadmp.dmp full=y buffer=5400000报错：Import: Release 11.2.0.1.0 - Production on Tue Jan 1 16:23:18 2019Copyright...

2019-01-01 17:56:13 3377

原创数据简单的清洗处理

有时文件数据较大时，csv转excel会发生数据丢失，这时候可以利用python对数据进行简单的校验处理#!/usr/bin/env python'''文件类型province,city,district,year,month,day,carrier, in_num,out_num,dwell_num河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....

2018-12-01 23:54:07 494

原创 python3 ActiveMQ从quene消费

Python利用stomp从activeMq中消费数据 #!/usr/bin/env pythonimport timeimport sysimport osimport stompuser = "cody"password = "123456"host = "192.7.1.136"port = 61613destination = "test"class ...

2018-12-01 23:47:41 1370

原创 Spark2 sparkSession使用

sparkSession使用：package com.jdjr.city.demoimport org.apache.spark.sql.SparkSession/** * @Auther: hongwei * @Date: 2018/11/9 16:31 * @Description: SparkSession使用 */object Test4 { def m...

2018-11-09 17:00:01 1089

原创 Mysql case when then操作

表数据：按天分类型统计最近10天的资金总量：SELECT dt,SUM(hold_amt_day),SUM(CASE WHEN `type`=1 THEN hold_amt_day END) AS a1, SUM(CASE WHEN `type`=2 THEN hold_amt_day END) AS a2, SUM(CASE WHEN `type`=3 THEN hold_am...

2018-11-09 09:41:02 3051

原创查询第二高薪水，若不存在则返回null

在leetcode上有这样的一道题：查询中第二高的薪水值，不存在则返回nullSELECT (SELECT DISTINCT salary FROM employee GROUP BY salary DESC LIMIT 1,1) AS SECOND或者SELECT ( SELECT DISTINCT Salary FROM Employee ORDER BY Salary DESC LIMIT...

2018-06-10 16:03:02 4023 2

原创 Spark中reduceByKey、groupByKey和combineByKey的区别

在spark中，reduceByKey、groupByKey和combineByKey这三种算子用的较多，其中：•reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义；•groupByKey也是对每个key进行操作，但只生成一个sequence，groupByKey本身不能自定义函数，需要先用...

2018-06-10 15:57:19 9590 1

原创 python3实现爬取百度图库的图片

环境：python3#!/usr/bin/python# -*-coding:utf-8-*-# FileName:spider.py# Author:Cody# Date:2018/5/11 22:10import requests # http客户端import re # 正则表达式模块import random #随机数def spiderPic(html, key...

2018-05-12 13:11:11 1141 1

原创 Hive sql练手

#在hive中创建表create table student(sno int,sname string,ssex string,sage int,sdept string) row format delimited fields terminated by "," stored as textfile;create table course(cno int,cname string) row fo

2018-01-19 11:19:41 563

原创 Hadoop中wordCount功能实现Demo

wordCount是hadoop下mapReduce下的一个基本的入门程序，用来统计一系列文本中单词出现的次数（最基本的用法）。Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。采用“分而治之”的办法，Mapper负责“分”，Reducer负责统计汇总。#自定义Mapper部分package com.vm.mapreduce;

2017-10-12 09:38:13 416

原创 Hadoop2.6.4集群搭建

环境配置：（1）4台配置好的centOs6.5（mini1，mini2，mini3，mini4）,每台机器都新建hadoop用户的用户，授予最高权限；（2）jdk版本：1.7；（3）编译好的hadoop2.6.4安装包（centOS6.5平台）集群搭建:（1）配置免密登入：cd ~/.ssh ssh-keygen -t rsa （四个回车）

2017-10-10 11:26:12 303