自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

邹中凡

Focus on AI & Big Data

  • 博客(55)
  • 收藏
  • 关注

转载 AI大模型探索之路-基础篇4:彻底掌握Function函数的概念及其应用

Function函数是OpenAI大模型非常重要的一个功能点,它允许大模型在生成响应时,可以调用外部函数来获取回复结果。首先定义三个函数get_table_names、get_column_names和get_database_info,用于从数据库连接对象中获取数据库的表名、表的列名以及整体数据库的信息;2)复杂计算:Function函数还可以用来执行复杂的计算任务,比如数据分析、图形渲染等。定义一个tools 的工具集(函数列表),包含2个为function函数,这两个函数分别定义了相关功能的参数。

2024-06-30 16:55:32 25

转载 AI大模型探索之路-基础篇3:构建Chat Completions驱动的多轮对话机器人

在本章的探索和实践中,我们成功地利用了ChatCompletion API与本地知识库相结合的方法,构建了一个能够进行多轮对话的机器人。通过精心设计的系统角色知识和对话流程,我们的机器人能够在多个回合中维持与用户的自然对话,提供了一种新颖且有效的解决方案,尤其适用于客户服务和教育辅导等场景。此外,这一技术的进步还将推动相关伦理和隐私保护措施的发展,确保在增强AI能力的同时,用户的安全和权益得到充分的尊重和保护。结果显示,大模型的回答结果并不完全真实,基本上都是它根据已有的知识编写出来的。

2024-06-30 16:49:54 35

转载 AI大模型探索之路-基础篇2:掌握Chat Completions API的基础与应用

前言OpenAI 大模型提供了一些强大的 API,方便用户与 OpenAI 的大语言模型进行交互。除了上篇中讲到的Embeddings中需要用到的embeddings接口,其核心接口主要是Completions 和Chat Completions接口。一、OpenAI 大模型接口列表二、Completions(文本自动补全类模型API)自动文本补全、用于生成各类文本任务的模型,可以根据给定的提示(prompt)自动生成和补全文本,如撰写文章Completions API:1、 接口:/v1/com

2024-06-30 16:42:53 65

转载 AI大模型探索之路-基础篇1:精通Embeddings向量表示法

这些预测任务训练出来的神经网络权重可以用作单词的嵌入。4、图嵌入(Graph Embedding):主要用于图结构的学习,将图中的节点(可能是用户、物品或其他实体)和边(表示节点之间的关系)映射到低维向量空间中。3、FastText:是由 Facebook AI Research 开发的一种模型,它在 Word2Vec 的基础上添加了一个字符级别的n-gram 特征。3、图像嵌入(Image Embedding):将图片转换为低维向量,这些向量能够捕捉图像的视觉特征,如颜色、纹理、形状等。

2024-06-30 16:40:54 13

转载 AI大模型探索之路-认知篇2:探索OpenAI生态系统的基石

中文、英语、法语、德语、希腊语、意大利语、日语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语等等。通过将⽂本转化为词向量,就可以让计算机进⼀步的“读懂⽂本”,通过词向量的计算和分析和相似度计算,可以对其背后的⽂本进⾏搜索、聚类、推荐、异常检测和分类等;5)虽然它们的知名度不如GPT-3.5和GPT-4,但A、B、C、D四大模型在OpenAI的大模型生态中功能最丰富,API种类最多。

2024-06-30 16:34:03 17

转载 AI大模型探索之路-认知篇1-全景透视:揭秘AIGC技术的进化之路

揭秘AIGC技术的进化之路

2024-06-30 16:27:19 14

原创 Ubuntu20.4部署Cuda12.4

Ubuntu 20.4上安装Cuda12.4

2024-05-12 12:20:08 1097

原创 vLLM初探

是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。在吞吐量方面,vLLM的性能比HuggingFace Transformers(HF)高出 24 倍,文本生成推理(TGI)高出3.5倍。是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。

2024-05-12 11:38:33 285

原创 Mysql常用

1,Mysql 安装yum install mysql mysql-server mysql-devel -yyum install mysql-connector-java2,启动service mysqld start3,修改root密码mysql -u rootuse mysql;update user set password = passwor

2017-05-17 15:26:30 652

原创 安装配置HTTP Server

1,下载httpd的必须依赖包:http://apr.apache.org/download.cgi  下载 apr-1.5.2.tar.gz、apr-util-1.5.4.tar.gzhttp://sourceforge.net/projects/pcre/files/latest/download 下载pcre2-10.23.zip2,下载httpd包http://ht

2017-02-16 19:43:37 852

原创 Oracle数据库修改字符集

Oracle数据集修改字符集

2017-02-07 20:01:19 965

原创 ClouderaManager修改集群的IP

方法的主要思想是:由于cloudera-manager在安装的时候,会配置相应的数据库,该数据库是用来存储集群的所有的配置信息。 cloudera-mamanger每次启动的时候,都会从数据库中读取这些配置信息,因此想修改主机的ip,只需要修改存在数据库中的主机的ip即可。 具体方法 (1)首先在安装cloudera-manager的主机上,停止所有的cloudera管理进程   servi

2016-08-15 22:44:10 1849

原创 Linux之SSH登录密码验证很慢

编辑/etc/ssh/sshd_config,禁用登陆时dns反向解析。vi /etc/ssh/sshd_config将#UseDNS yesn 改为: UseDNS no

2015-11-20 15:53:35 1449

原创 Sqoop全量和增量导入数据到Oracle数据库

1,全量导入 示例: –全量导入 sqoop import –connect jdbc:oracle:thin:@10.51.103.29:1521:DW –username FMIS9999 –password=FMIS9999 –table T_EMP –num-mappers 10 –hive-import –hive-database GRC_BIGDATA –hive-table

2015-11-13 11:54:03 5896

原创 Hive数据备份和恢复

本文说明如何通过把Hive中的数据备份到磁盘中,并从磁盘中恢复到Hive中。1,把Hive中的表数据备份到磁盘中。 备份示例:use GRC_BIGDATA;insert overwrite local directory '/root/grc_bigdata/backup/src_companyinfo' ROW FORMAT DELIMITED FIELDS TERMINATED BY '|

2015-11-13 11:46:17 12536

原创 Cloudera Manager5常见问题汇总

1,在Cloudera Manager5中安装CDH时报如下错: 查看旁边的“详细信息”链接,可以发现在“正在启动 Cloudera Manager Agent…”环节有如下错误:>>IOError: [Errno 13] Permission denied: '/var/log/cloudera-scm-agent/cloudera-scm-agent.log' >>error: [Errno

2015-11-13 09:45:35 15953 1

转载 JVM的相关知识整理和学习

JVM是虚拟机,也是一种规范,他遵循着冯·诺依曼体系结构的设计原理。冯·诺依曼体系结构中,指出计算机处理的数据和指令都是二进制数,采用存储程序方式不加区分的存储在同一个存储器里,并且顺序执行,指令由操作码和地址码组成,操作码决定了操作类型和所操作的数的数字类型,地址码则指出地址码和操作数。从dos到window8,从unix到ubuntu和CentOS,还有MAC OS等等,不同的操作系统指令集以

2015-10-23 09:42:52 442

转载 Apache的MaxClients参数详解及其在Tomcat执行FullGC时的影响

这是“成为Java GC专家系列文章”的第四篇。在第一篇文章 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制 中我们学习了不同GC算法的执行过程,GC如何工作,新生代及老年代的基本概念,在JDK7中你应该了解的5种GC类型以及他们的性能如何。在第二篇文章 成为JavaGC专家Part II — 如何监控Java垃圾回收机制 中我们学到了JVM到底是如何执行垃圾回

2015-10-21 20:20:07 596

转载 如何优化Java垃圾回收机制3

本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在第二篇《成为JavaGC专家Part II — 如何监控Java垃圾回收机制》,我解释了JVM实际上是如何执行垃圾回收

2015-10-21 20:18:07 1158

转载 如何监控Java垃圾回收机制2

本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5种类型对于应用性能的影响。在本文中,我将解释JVM到底是如何执行垃圾回收处理的。什么是GC监控?垃圾回收收集监控指的是搞清楚JVM如何执行GC的过程,例如,我们可以查明

2015-10-21 20:14:36 447

转载 深入浅出Java垃圾回收机制1

本文章转载至:http://www.importnew.com/1993.html对于Java开发人员来说,了解垃圾回收机制(GC)有哪些好处呢?首先可以满足作为一名软件工程师的求知欲,其次,深入了解GC如何工作可以帮你写出更好的Java应用。这仅仅代表我个人的意见,但我坚信一个精通GC的人往往是一个好的Java开发者。如果你对GC的处理过程感兴趣,说明你已经具备较大规模应用的开发

2015-10-21 19:07:42 499

转载 Kmeans聚类算法-二维度数组(Java实现)

本文章转载至:http://blog.csdn.net/cyxlzzs/article/details/7416491源码Kmeans.java文件源码如下:package com.bigdata.ml.cluster;import java.util.ArrayList;import java.util.Random;/** * 聚类算法通常用于数据挖掘,将相似的数组进行

2015-09-30 14:55:16 4320

原创 基于密度的局部离群点检测(lof算法) (Java 实现)

算法:基于密度的局部离群点检测(lof算法)输入:样本集合D,正整数K(用于计算第K距离)输出:各样本点的局部离群点因子过程:1,    计算每个对象与其他对象的欧几里得距离2,    对欧几里得距离进行排序,计算第k距离以及第K领域3,    计算每个对象的可达密度4,    计算每个对象的局部离群点因子5,    对每个点的局部离群点因子进行排序,输出。

2015-09-30 14:48:41 12741 9

原创 Oracle常用查询

1,查询表空间使用情况 select b.file_id 文件ID号, b.tablespace_name 表空间名, b.bytes/1024/1024||’M’字节数, (b.bytes-sum(nvl(a.bytes,0)))/1024/1024||’M’ 已使用, sum(nvl(a.bytes,0))/1024/1024||’M’ 剩余空间, 100 - sum(

2015-09-25 13:46:50 453

原创 Impala之概念及架构

Impala服务器是一个分布式,大规模并行处理(MPP)数据库引擎。它包括运行在CDH集群主机上的不同后台进程。Impala DaemonImpala Daemon进程是运行在集群每个节点上的守护进程,是Impala的核心组件之一。每个节点上这个进程名称为impalad。impalad 负责读写数据文件,接受来自impala-shell、Hue、JDBC或者ODBC的查询请求,与集

2015-09-22 10:45:12 4991

原创 Linux之cron任务

一.  Crontab 介绍 crontab命令的功能是在一定的时间间隔调度一些命令的执行。1.1 /etc/crontab 文件在/etc目录下有一个crontab文件,这里存放有系统运行的一些调度程序。每个用户可以建立自己的调度crontab。[root@cdh-node3 etc]# cat /etc/crontab SHELL=/bin/bashPA

2015-09-15 10:22:56 655

原创 Hadoop常见错误之HDFS

下面小编整理在工作中遇到的问题,以及解决方法。 1,Datanode启动失败错误 现象 在启动Datanode时,/var/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-cdh-node12.grc.log.out日志文件中有如下错误:Caught exception while scanning /data/dfs/dn/current. Will thr

2015-08-13 14:26:48 12220 1

原创 Centos6.6 安装Oracle 11g

一,安装环境 硬件:物理机 操作系统:Centos 6.6 64位 IP:10.51.120.12 主机名:grc-cdh03二,用root用户修改Linux的配置 1,yum安装依赖包。 yum -y install binutils compat-libcap1 compat-libstdc++.i686 compat-libstdc++.x86_64 elfutils-

2015-07-30 16:18:53 1835

原创 Linux基础命令

1,查看某个端口被哪个进程占用lsof -i : 端口号# lsof -i:22COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAMEsshd 1646 root 3u IPv4 10862 0t0 TCP *:ssh (LISTEN)# lsof -i:21050COMMAND PID USER FD TYPE DEVICE SIZE/OFF N

2015-07-30 16:03:44 2111

转载 RAID详解[RAID0/RAID1/RAID10/RAID5]

文章转载至:http://blog.chinaunix.net/uid-639516-id-2692517.html一.RAID定义RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出,最初是为了组合小的廉价磁盘来代替大的昂贵磁盘,同时希望磁盘失效时不会使对数据的访问受损 失而开发出一定水平的数据保护

2015-07-28 10:14:08 989

转载 Linux忘记root密码的解决办法

转载至:http://jingyan.baidu.com/article/7e440953f87f4a2fc0e2ef90.htmlLinux忘记 root密码的解决办法?这种情况虽然不是很常见,但是有些粗心的管理员长时间没有登录系统,还真会忘记密码。这时候,如果是远程管理,那就真没辙了。如果linux主机就在你身边,那还是有救的。只要你按以下步骤来操作:解

2015-07-15 09:17:01 447

转载 开源大数据查询分析引擎现状

注:此文章转载至http://www.36dsj.com/archives/30017原文如下:引言大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigt

2015-07-13 14:56:33 1123

原创 Cloudera Manager5问题之NTP问题

按照Cloudera 的官方建议,所有的CDH节点和Cloudea Manager节点都需要启动ntpd服务。要不然会报如下错误: 1)此角色的主机的运行状况为不良。 以下运行状况测试不良: 时钟偏差. 2)The host’s NTP service is not synchronized to any remote server.解决方法如下: 先配置一台NTP服务,然后所有的CDH节点都

2015-07-01 14:49:33 19927

原创 Linux基础之dd命令

1,测试写 time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000[root@grc-cdh03 ~]# time dd if=/dev/zero of=/tmp/iotest bs=8k count=1000000记录了1000000+0 的读入记录了1000000+0 的写出8192000000字节(8.2 GB)已复制,11.75

2015-06-19 15:10:34 543

原创 Linux 基础之查看CPU信息

1.查看物理cpu个数 grep ‘physical id’ /proc/cpuinfo | sort -u | wc -l2.查看核心数量 grep ‘core id’ /proc/cpuinfo | sort -u | wc -l3.查看线程数 grep ‘processor’ /proc/cpuinfo | sort -u | wc -l4.查看cpu型号 dmidecode -s p

2015-06-19 11:45:32 732

原创 Cloudera Manager5配置管理之安装Spark的Standalone

此文章介绍Cloudera Manager安装Spark的Standalone模式 1,环境信息 2,安装Spark的Standalone1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,安装Spark的Standalone模式 2.1 在Cloudera Manager中,点击“添加服务”。 2.2,添加服务向导-选择您要添加的服务类型。选

2015-06-04 11:11:24 6476 1

原创 Cloudera Manager5配置管理之配置Namenode 的HA

此文章介绍Cloudera Manager配置Hive Metastore 1,环境信息 2,配置Namenode 的HA1,环境信息 基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2,配置Namenode 的HA 2.1,进入HDFS界面,点击“启用High Availability” 2.2,输入NameService名称,这里设置为:nameserv

2015-06-04 10:52:05 11731

原创 CDH5.3.2中配置运行Spark SQL的Thrift Server

一,环境信息 CDH集群,Cloudera Manager5安装部署CDH5.X详细请见:http://blog.csdn.net/freedomboy319/article/details/44804721二,在CDH5.3.2中配置运行Spark SQL的Thrift Server 1,root用户登录CDH5.3.2集群中的某一个节点2,cd /opt/cloudera/parcels/C

2015-06-02 16:45:42 10565 3

原创 Oracle常见错误

问题说明: 目标端数据库imp之后查询相关表,报 ORA-28100。 原因: 在exp的源端有vpd策略,目标端删除vpd策略即可执行如下语句既可删除制定用户的VPD。declare str_schema varchar2(20) := 'user_name'; str_obj_name varchar2(200) ; str_group_name varchar2(20

2015-05-07 10:38:05 528

原创 Hive常见问题汇总

这里小编汇集,使用Hive时遇到的常见问题。 1,执行#hive命令进入Hive CLI时报如下错误:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHi

2015-04-02 09:58:49 51726

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除