gm0012-CSDN博客

原创 Tansformer原理解读

生物学中的注意力机制是指人类或动物能够选择性地将感知和认知资源集中到某些信息或任务上的能力。这种能力允许我们在众多信息的背景中过滤出重要的信息，并将这些信息传递给相应的神经元进行处理。能从中抓住重点，不丢失重要信息我们的视觉系统就是一种 Attention机制，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。简单且直观的理解，机器学习中注意力机制跟人的注意力类似，一张图片的信息量很多，大部分人只会注意**“锦江饭店**”四个字，招牌后面的电话号码和汽车就不是关注的重点。

2024-05-08 11:31:40 1219

原创 Token

在自然语言处理（NLP）中，token是指文本中最小的语义单元。比如，一个句子可以被分割成若干个单词，每个单词就是一个token。例如，“I love you”这个句子可以被分割成三个token：“I”，“love”和“you”。token可以帮助我们把文本分解成更容易处理和分析的部分。除了单词之外，还有一些其他的符号也可以被视为token。比如，标点符号、数字、表情符号等等。这些符号也可以传达一些信息或者情感。例如，“I love you!”和“I love you?

2024-05-08 10:49:43 315

原创 GLM４——Function calling（函数调用）

为了向模型描述外部函数库，需要向 tools 字段传入可以调用的函数列表。参数名称类型是否必填参数说明typeString是设置为functionfunctionObject是nameString是函数名称String是用于描述函数功能。模型会根据这段描述决定函数调用方式parametersObject是parameters Object是数所接受的参数。若调用函数时不需要传入参数，省略该参数即可代码tools = [

2024-04-23 16:20:11 3541 2

原创 Prompt原理详解

我们给出的 Prompt 其实就是 x，然后让大模型基于这个 x 知道概率最大的 y，这样就避免了人工的标注，但是依赖于 x 给入的信息，去更大概率找到合适的 y。所以，为了让大模型更好的理解我们的问题，我们需要给大模型更多的输入，更多的限定，更多的上下文，更加明确的结果输出，这样大模型才更有可能返回我们期望的结果。这个时候，大模型完全没有上下文，也没有任何例子可以去参考，所以他只能按照自己的模型的内容，随意的去发挥，看看碰到模型的那一部分，就返回对应的结果。

2024-04-18 10:48:33 1938

原创 Prompt学习笔记（一）

假设大模型是一个拥有海量知识储备的孩子，你想让它回答一些你的问题，该如何提问呢？大语言模型是基于大量数据进行预训练的超大型深度学习模型，由具有许多参数（通常数十亿个权重或更多）的人工神经网络组成，这些神经网络由具有自注意力功能的编码器和解码器组成。提示工程是指在使用生成式人工智能（Generative AI），如 ChatGPT、Midjourney 时，编写高效、准确的提示的过程。在使用大语言模型的过程中，人们越来越觉得应该把大语言模型当人看，或者更准确一点，把大语言模型当孩子来看。

2024-04-16 16:34:23 558

原创 RAG学习笔记系列（三）

内容响应合成是 RAG pipeline 的最后一步，根据检索到的上下文内容和用户原始的查询，生成最后的响应内容。2、文档 Agent 有两个工具：向量索引和摘要索引，根据查询决定使用哪个工具。工具包括一系列定义好的函数，比如：代码函数、外部API、其他的 Agent。Agent 是使用 LLM 进行推理，为其提供一系列工具完成一个任务。3、对于顶级 Agent，所有的文档 Agent 都是工具。

2024-04-16 14:15:23 559

原创 RAG学习笔记系列（二）

Transformer 模型输入的长度是固定的，能够表达的语义信息也是固定的，粒度小的文本内容（一句话或者几句话），生成的向量更能够表达文本的含义。一个优秀的 RAG 系统需要支持对话逻辑，在查询的时候能够将对话的上下文考虑在内。需要从有许多文档中进行高效的检索，找到相关的信息，然后整合到一个答案中，并带有参考来源。AG pipeline 中的关键组成部分，用于存储前面文本块向量化后的数据。查询和假设问题之间的语义相似度更好，对比直接搜索文本块，该方法的质量更高。分块的大小是需要考量的参数。

2024-04-16 14:12:04 609

原创 RAG学习笔记系列（一）

RAG 全称为 Retrieval Augmented Generation（检索增强生成）。是基于LLM构建系统的一种架构。RAG 基本上可以理解为：搜索 + LLM prompting。根据用户的查询语句，系统会先使用搜索算法获取到相关内容作为上下文，然后将用户查询语句和获取到的上下文一起注入到 prompt 中，然后将 prompt 提供给 LLM 来生成回答内容。

2024-04-16 13:49:12 509

原创 RAG原理详解

检索增强生成（Retrieval Augmented Generation，简称RAG）为大型语言模型（LLMs）提供了从某些数据源检索到的信息，以此作为生成答案的基础。简而言之，RAG是搜索+LLM提示的结合，即在有搜索算法找到的信息作为上下文的情况下，让模型回答提出的查询。查询和检索到的上下文都被注入到发送给LLM的提示中。

2024-04-16 11:28:55 2318

原创 Android 使用DataBinding时 databinding 无法链接到布局id，不出现提示解决办法

在平时使用databinding的时候无法链接到布局文件中id 的方法。1、在相对应的xml布局文件中增加 data约束。

2024-01-05 13:35:21 559

原创 Android Studio小白

自学安卓

2022-08-04 10:30:33 467

原创基于内容的推荐算法

基于内容的推荐画像构建给用户/物品打标签- 物品画像- 分类信息- 标题- 电影、音乐主演歌手 - 用户画像 - 喜好的物品分类行为偏好 - 基本人口学属性 - 活跃程度 - 风控维度PGC应用自己生成UGC 用户生成基于内容推荐的算法流程- 用户画像/物品画像- 匹配用户画像物品画像物品冷启动问题- 画像-> 词向量-> 物品向量 -> 计算物品相似程

2021-04-11 19:42:40 204

原创基于矩阵分解的CF算法实现（一）： LFM

LFM也就是Funk SVD矩阵分解矩阵分解SVD 奇异值分解- 一个大矩阵分成3个小矩阵中间的是一个K方阵- SVD 只适用于没有缺失必须是稠密矩阵Funk SVD- 一个大的矩阵分解成两个小矩阵Bias SVD 矩阵分解+baselineSVD++ 矩阵分解+baseline+其他影响（点击收藏购买）...

2021-04-11 12:05:05 200

原创协同过滤相似度

使用不同相似度计算方式实现协同过滤如果买/没买点/没点数据 0/1 适合使用杰卡德相似度- from sklean.metrics import jaccard_similarity_score- jaccard_similarity_score(df['item A'],df['item B'])-一般使用评分去做协同过滤推荐使用皮尔逊相关系数- 评分预测基于用户和基于物品的协同过滤严格来说属于两种算法，实践中可以都做出来，对比效果，选择最靠谱的。...

2021-04-09 09:41:18 307

原创推荐算法

推荐算法架构召回 - > 排序 - > 策略调整 - >推荐模型构建流程数据收集- 显性评分- 隐形数据特征工程- 协同过滤用户-物品评分矩阵- 基于内容分词 tf-idf word2Vec训练模型- 协同过滤- KNN- 矩阵分解评估、模型上线协同过滤思路介绍CF 物以类聚人以群分做系统过滤的话首先特征工程要把用户-物品的评分矩阵创建出来基于用户的协同过滤- 给用户A找到最相似的N个用户- N个用户消费过哪些商品

2021-04-08 16:19:11 101 1

原创推荐系统

推荐概念- -信息过滤系统解决信息过载用户需求不明确的问题 `- 利用一定的规则将物品排序，展示给需求不明确的用户- 推荐搜索区别 - 推荐个性化较强，用户被动接受，希望能够提供持续的服务- 搜索个性化弱，用户主动搜索，快速满足用户需求- 推荐和web项目区别- 构建稳定的信息流流通通道- 推荐信息过滤系统- web 对结果有明确预期- 推荐结果是概率问题推荐系统整体架构大数据Lambda架构Lambda架构提供了一个结合实时数据和 Hadoop预先计

2021-04-08 14:52:03 97

原创数据面试总结

大数据理解指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据挖掘研发概念理解对海量文本内容数据进行分类和聚类，包涵社交账户地域、性别、年龄等系列算法，基于内容的兴趣算法，态势分析、印象分析、情绪分析、意见领袖分析、满意度分析、用户分析、类别分析等多维度的智能算法体系。什么是索引索引是以表列为基础的数据库对象。索引中保存着表中排序的索引列，并且纪录了索引列在数据库表中的物理存储位

2021-03-12 11:10:01 167

原创快手用户活跃度--项目实战

读取数据import pandas as pdimport numpy as npimport tensorflow as tfimport datetimefrom deep_tools import ffrom deep_tools import DataGeneratorregister=pd.read_csv('user_register_log.txt',sep='\t',names=['user_id','register_day','register_type','device

2021-03-11 14:48:43 1232 2

原创深拷贝、浅拷贝

浅拷贝：简单的赋值拷贝操作深拷贝：在堆区重新申请空间，进行拷贝操作利用指针在堆区创建存储浅拷贝的问题是堆区的内存重复释放要利用深拷贝的问题来解决重新在堆区创建一块内存进行释放...

2020-12-14 11:05:59 87

原创人工神经网络-- 感知器算法

感知器算法：能够从一些输入输出中对（X,y）中通过学习短算法获取权重W和b神经网络数学模型： y = w^T * X + b定义一个增广向量感知器算法收敛定理：

2020-12-11 17:03:39 213

原创支持向量机（SVM）--小样本

简介支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。原理SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示， [公式] 即为分离超平面

2020-12-09 16:31:40 4904 2

原创机器学习系列（六） -- K-means算法（食物数据集）

K-means是一种最流行的聚类算法属于无监督学习可以在数据集分为相似的组（簇），使得组内数据的相似度较高，组间之间的相似度较低步骤：# 1 从样本中选择k个点作为初始簇中心# 2 计算每个样本到各个簇中心的距离，将样本换分到距离最近的簇中心所对应的簇中# 3 根据每个簇中所有样本，重新计算簇中心，并更新# 4 重复步骤2 3 直到簇中心的位置变化小于指定的阈值或者达到最大迭代次数为数据读取import numpy as npimport pandas as pddata = pd

2020-12-03 12:55:21 3419 2

原创爬虫学习系列（三）-- 爬取百度翻译

##### 破解百度翻译 ######### post请求（携带了参数）# 响应数据是一组json数据import requestsimport jsonpost_url = 'https://fanyi.baidu.com/sug'# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge

2020-12-02 21:06:52 222 1

原创机器学习系列（五） -- 逻辑回归（莺尾花数据集）

加载数据import numpy as npimport pandas as pddata = pd.read_csv('iris.csv')# 去掉不需要的ID列data.drop('ID',axis=1,inplace=True)# 删除重复记录data.drop_duplicates(inplace=True)## 进行映射de = data['Species'].drop_duplicates()# print(de)# setosa virginica versi

2020-12-02 17:06:22 863

原创机器学习系列（四） -- 梯度下降实现线性回归（波士顿数据集）

梯度下降实现现行回归.读取数据集:import numpy as npimport pandas as pddata = pd.read_csv('data.csv')print(data.head())线性回归类class LinearRegression: # 使用梯度下降方法实现线性回归 def __init__(self,alpha,times): # 初始化方法 # 参数： alpha : float 学习率用来控制步长。（权

2020-12-01 20:24:12 582

原创机器学习系列三 -- 最小二乘法实现线性回归（波士顿数据集）

线性回归数据集分析#CRIM：城镇人均犯罪率。ZN：住宅用地超过 25000 sq.ft. 的比例。INDUS：城镇非零售商用土地的比例。CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。NOX：一氧化氮浓度。RM：住宅平均房间数。AGE：1940 年之前建成的自用房屋比例。#DIS：到波士顿五个中心区域的加权距离。#RAD：辐射性公路的接近指数。#TAX：每 10000 美元的全值财产税率。#PTRATIO：城镇师生比例。B：1000（Bk-0.63）^ 2，其中

2020-12-01 17:14:25 2146 1

原创机器学习系列（二）-- KNN回归算法实现

数据预处理import numpy as npimport pandas as pddata = pd.read_csv('../KNN分类/iris.csv')# print(data)# 删除不需要的ID和Species列因为需要进行回归预测类别信息就没有用处了data.drop(['ID','Species'],axis=1,inplace=True)# print(data)# 删除重复的数据data.drop_duplicates(inplace=True)KNN

2020-11-29 16:02:03 720

原创机器学习系列（一）-- KNN分类

首先下载莺尾花数据集对数据进行处理import numpy as npimport pandas as pd# 读取数据集 header参数用来指定标题的行，默认为零，如果默认没有标题，则使用Nonedata = pd.read_csv('iris.csv')print(data)# 显示前n行数据，默认值为5# print(data.head())# 显示末尾的n行记录，默认值为5# print(data.tail())# 随机抽取样本，默认抽取一条，可以通过参数进行指定抽取样本

2020-11-27 22:04:13 400

原创爬虫学习系列（十）--- 爬取4k图片

对于乱码情况的处理：手动设定响应数据的编码格式response.encoding = "utf-8"通用处理解决乱码的方案img_name = img_name.encode('iso-8859-1').decode('gbk')完整代码实现：from lxml import etreeimport requestsimport os# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x

2020-11-24 15:33:48 179

原创爬虫学习系列（九）-- 58同城二手房中的房源信息

代码实现：from lxml import etreeimport requests# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"}# 爬取到页面的源码数据url = 'https://zz.58.com/ershoufang/'

2020-11-24 11:21:12 244

原创爬虫学习系列（八）-- xpath解析

xpath解析：最常用且最便捷高效的一种解析方式xpath解析原理：– 1 实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中– 2 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获环境安装：– pip install lxml如何实例化一个etree对象– 1 将本地的html文档中的源码数据加载到etree对象中：etree.parse(filePath)– 2 可以将互联网上获取的源码数据加载到该对象中etree.H

2020-11-24 10:45:37 158

原创爬虫系列学习（七）--- 爬取三国演义小说中的所有章节标题和章节内容

爬取三国演义小说中的所有章节标题和章节内容import requestsfrom bs4 import BeautifulSoup# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36"}url = 'https://www.shicimi.

2020-11-23 17:33:02 1238 2

原创爬虫学习系列（六）--bs4 数据解析

bs4数据解析原理：– 实例化一个BeautifulSoup对象，并且将页面数据源码数据加载到该对象中– 通过调用BeautifulSoup对象中的相关的属性或者方法进行标签定位和数据提取环境安装：– pip install bs4– pip install lxml如何实例化BeautifulSoup对象：– from bs4 import BeautifulSoup– 对象实例化：– 1 将本地的html文档中的数据加载到该对象中fp = open("./jay.html",

2020-11-23 17:06:24 178

原创爬虫学习系列（五）--数据解析

聚焦爬虫：流程：–指定url– 发起请求– 获取相应数据– 数据解析– 持久化存储数据解析原理：– 解析的局部文本内容都会在标签之间或标签对应的属性中进行存储– 进行指定标签的定位–标签或者标签对应的属性中存储的数据进行提取（解析）糗事百科的爬取 ----图片爬取 # 糗事百科的爬取 ----图片爬取import requestsurl = 'https://pic.qiushibaike.com/article/image/TBJH2P6S31C2LNUS.j

2020-11-22 18:33:13 116

原创爬虫学习系列（四） - 豆瓣电影

import requestsimport jsonurl = 'https://movie.douban.com/j/chart/top_list'param = { 'sort': "U", "range": "0,10", 'tags':'', 'start': '0'}# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x6

2020-11-21 15:17:10 183

原创爬虫学习系列（三） -----破解百度翻译

# post请求（携带了参数）# 响应数据是一组json数据import requestsimport jsonpost_url = 'https://fanyi.baidu.com/sug'# UA伪装headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safar

2020-11-21 15:16:18 145

原创爬虫学习系列（二） - 简易的网页采集器

# 简易的网页采集器import requestsurl = 'https://www.sogou.com/sogou?pid=sogou-brse-b5e93461a6b1f9f5&query=%E6%99%93%E6%B3%A2%E5%BC%A0'# 处理url携带的参数：封装到字典中kw = input('enter a word :')param = { 'query':kw}# 发送请求：携带参数的请求，并且请求的过程中处理了参数reque

2020-11-20 17:42:11 163

原创爬虫学习系列（一）

爬虫初探----requests模块# requests 模块# --urllib模块# --requests模块# requests模块; 模拟浏览器发送请求# 使用：# ---指定url# ---发起请求# ---获取响应数据# ---持久化存储# ######## 爬取搜狗首页的页面数据 ###########import requests# 指定urlurl =

2020-11-20 17:35:50 69

原创机器学习实战之信用卡诈骗（三）

SMOTE样本生成策略import pandas as pdfrom imblearn.over_sampling import SMOTEfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.matrics import confusion_matrixfrom sklearn.model_selection import train_test_splitcredit_cards = pd.read_csv('cr.

2020-11-19 20:44:33 193

原创机器学习实战之信用卡诈骗（二）

模型评估标准：recall = TP/(TP+FN)from sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import KFold, cross_val_scorefrom sklearn.metrics import confusion_matrix, recall_score, classification_reportdef printing_Kfold_scores(x_train_

2020-11-19 20:18:31 180

快手活跃度数据集(机器学习)

空空如也