自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (2)
  • 收藏
  • 关注

原创 LLM学习

1]

2023-07-27 14:03:09 86

原创 python dict排序

time_dict = {"year": "", "half_year": "", "month": "", "half_month": "", "week": "", "holiday": "", "day": "","mid_day": "", "hour": "", "minute": "", "second": ""}dict_1={'year': '2019年', 'month': '02月', 'day': '17日', 'hour': '09时', 'minute': '30分'}dict

2021-11-16 14:03:33 623

原创 nlp-数据增强

数据增强–目的利用有限的标注数据,获得到更多的标注数据,减少网络中的过拟合现象,训练出泛化能力更强的网络数据增强起初在计算机视觉领域应用较多,主要是运用各种技术生成新的训练样本,可以通过对图像的平移、旋转、压缩、调整色彩等方式创造新的数据。而在nlp领域中数据是离散的,这导致我们无法直接简单的转换(换掉一个词可能影响整个句子的含义)。因此就需要研究具有针对性的文本数据增强技术;数据增强–技术传统数据增强技术现有NLP的Data Augmentation大致有两条思路,一个是加噪,另一个是回译,均

2021-10-12 10:19:01 582

原创 数据分析数据挖掘的步骤

数据挖掘主要包括以下几个步骤:1、定义挖掘的目的【目的】清楚挖掘的目的是什么?想要达到的目的是什么?2、数据取样【目的】抽取与挖掘目的相关的数据集抽取数据标准相关性可靠性完整性有效性衡量取样数据质量的标准参考 :P173、数据探索【目的】保证数据的质量,为模型质量打下基础数据探索主要包括异常值分析缺失值分析相关性分析周期性分析可以从数据质量分析和数据特征分析两个角度对数据进行探索数据质量分析【目的】数据质量分析的主要任务是检查原始数据中是否存在脏数据;

2021-03-04 15:14:19 2810 1

原创 用户挖掘&特征分析

用户挖掘用户需求挖掘用户需求挖掘5大步骤:1、区分核心用户:根据用户去求两、购买意愿等对用户进行类别划分2、对业务进行分类:每一类业务可能有固定的商品组合和消费特点,找出业务强相关性比如对五金店而言: 工程类业务:大量的钢筋、各种物料(不会零散采购) 水类改造:水管、扳手,防水胶带 电类改造:电线、开关、插座 墙体维修:水泥、刷子、油漆 物件维修:钉子、锤子、钻机3、抓住关键信息:实际业务中,传统企业靠销售、导购、业务员去抓关键信息,互联网企业靠埋点、推送/反映、问卷、浏览

2021-02-25 14:31:16 723

原创 推荐算法初步调研-总结1

推荐算法分类按照推荐主体分类:基于内容的推荐:以内容为主题推荐与用户购买过的相似物品基于协同过滤的推荐:根据相似用户的兴趣爱好推荐物品给用户(协同:利用群体的行为来做决策;过滤:从可行的决策中将与用户喜欢的方案找出来){基于内容的协同过滤:找到物品和物品之间的相似度,只有找到了目标用户对某些物品的评分基于用户的协同过滤:主要考虑的是用户和用户之间的相似度,只要找出相似用户喜欢的物品,并预测目标用户对对应物品的评分基于模型的协同过滤:用已有的部分稀疏数据来预测那些空白的物品和数据之间的

2021-02-25 11:18:12 309

原创 nlp-推荐算法1

推荐算法–初识是什么【推荐算法】就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西为什么推荐算法的研究起源于20世纪90年代,由美国明尼苏达大学 GroupLens研究小组最先开始研究,他们想要制作一个名为 Movielens的【电影推荐系统】,从而实现对用户进行电影的个性化推荐。首先研究小组让用户对自己看过的电影进行评分,然后小组对用户评价的结果进行分析,并预测出用户对并未看过的电影的兴趣度,从而向他们推荐从未看过并可能感兴趣的电影。此后, Amazon开始在网站上使用推荐系统,

2021-02-23 10:07:15 1245

原创 nlp-bert学习1

BERT一级目录二级目录三级目录一级目录二级目录三级目录

2020-08-14 10:31:11 521

原创 Transformer-学习1

Transformer论文问题解决主要[贡献](https://www.cnblogs.com/robert-dlut/p/8638283.html)Attentionself Attentionself Attention 计算过程Multi-headed attentionTransformer 模型transformer-encodertransformer-decodertransformer 输入tansformer-输入-位置编码transformer 优点参考文献论文简单来说,transf

2020-08-14 10:27:30 519

原创 nlp-语言表示模型

语言表示模型四种语言表示模型BOWOne-HotCountTFIDFN-gram方法共现矩阵主题模型LDALSA静态词向量NNLMword2vecfasttextGlove合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入四种语言表示模型语

2020-08-13 16:07:13 1214

原创 智能客服--大厂对话系统实践 总结

智能客服:咨询问答、任务型多轮对话、闲聊客服一、闲聊检索式 or 生成式二、咨询问答(1)创建 问答库(2)QA | QQ 文本形似度 得到相似度问题 & 答案三、任务型多轮对话(1)意图识别(2)槽位填充爱因的 DeepBot 架构(见下图有一个总控(DM vs RouteBot)决定把当前对话分配给哪个(些)技能,技能也都采用了可插拔的设计。对话系统主要包含...

2020-02-20 20:00:26 1642

原创 2019新型冠状病毒来势汹汹我们无需恐慌(可防可控),但也不得不防(存在的“人传人”的风险)

【作为一个普通市民想要了解的“新型冠状病毒”的知识点整理】一、病毒传染途径1、病毒简介冠状病毒是一个大型病毒家族,已知可引起感冒以及中东呼吸综合征(MERS)和严重急性呼吸综合征(SARS)等较严重疾病。冠状病毒分为α、β、γ三个属,是一类主要引起呼吸道、肠道疾病的病原体。这类病毒颗粒的表面有许多规则排列的突起,整个病毒颗粒就像一顶帝王的皇冠,因此得名“冠状病毒”。目前已知的感染人的冠状病毒...

2020-01-22 14:28:20 24492

原创 tensorflow2.0初相识

安装安装:本地有anaconda python3.6环境,所以直接搭建一个tf2.0的虚拟环境参考:https://www.jianshu.com/p/13f752e3a2f9步骤:#1、创建tf2.0虚拟环境conda create --name tf2_venv python=3.6#2、在anaconda的envs路径下,就多了一个tf2的虚拟环境,我们可以使用activate命...

2020-01-15 13:53:23 229

原创 seq2seq

算法框架seq2seq简单来说就一个编码,再解码的过程。seq2seq 模型就像一个翻译模型,输入是一个序列(比如一个英文句子),输出也是一个序列(比如该英文句子所对应的法文翻译)。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。seq2seq原理图算法原理:1、由编码和解吗两个部分组成seq2seq模型的整体框架2、编码阶段的RNN序列的最后一个状态作为解吗RNN的初始状态...

2020-01-14 13:34:05 376

原创 吴恩达机器学习笔记

day2总结:今天学习了线性回归、梯度下降以及梯度下降在线性回归算法中的应用等内容。线性回归算法用来解决有监督问题中的回归问题【算法思想】:用历史经验(x[样本特征],y[样本结果])来学习一个假设函数h,从而能够在对新样本中的x进行预测得到结果y。用历史数据中的y与假设函数的结果h(x)进行对比,得到代价函数。【假设函数的目标】是不断修改参数theta最终使代价函数达到最小值,即使...

2020-01-09 10:40:23 494

原创 rasa_nlu调研报告

RASA_NLU调研报告一、rasa_nlu模块1、rasa简介Rasa是一个开源机器学习框架,用于构建上下文AI助手和聊天机器人。Rasa有两个主要模块:Rasa NLU :用于理解用户消息,包括意图识别和实体识别,它会把用户的输入转换为结构化的数据。Rasa Core:是一个对话管理平台,用于举行对话和决定下一步做什么。Rasam框架的基本流程:2、rasa_nlu简介R...

2019-12-28 16:39:29 1284 2

原创 阅读理解问答调研

一、 阅读理解型问答1、 概念机器阅读理解与问答主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解具有很高的研究价值和多样的落地场景。它能够让计算机帮助人类在大量文本中快速找到准确答案,从而减轻人们对信息的获取的成本。具体来讲,机器阅读理解和问答任务(QA)指的是给定一个问题和一个或多个文本,训练的QA系统可以依据文本找出问题答案。一般情况下,有以下三种问题:Simple (facto...

2019-12-27 15:16:17 858

原创 rasa core 中的逻辑

rasa corerasa 逻辑rasa core为核心的逻辑Agent将Rasa Core的功能通过API开放出来,像模型训练,对话处理等都可以通过Agent完成,一个模型训练的例子:import sysfrom rasa_core.policies.keras_policy import KerasPolicyfrom rasa_core.agent import Agent...

2019-12-11 15:56:37 1821 2

原创 CS224斯坦福nlp课程学习笔记2-词向量

one hot encoder(词袋模型)每个词表示为一个向量,向量长度为语料库中词的个数,每个向量值只有一个编码为1其余是0杭州 [0,0,0,0,0,0,0,1,0,……,0,0,0,0,0,0,0]上海 [0,0,0,0,1,0,0,0,0,……,0,0,0,0,0,0,0]宁波 [0,0,0,1,0,0,0,0,0,……,0,0,0,0,0,0,0]北京 [0,0,0,0,0,0...

2019-10-22 09:06:03 223

原创 自然语言处理-情感分析

情感分析python 包https://www.jianshu.com/p/d50a14541d01英语:textBlob包中文:snownlp实战:IMDb电影评论https://baijiahao.baidu.com/s?id=1598913702189213115&wfr=spider&for=pc步骤:1、清洗文本数据:删除不需要的字符2、标记文档:分词、词...

2019-10-22 09:05:31 260

原创 阅读理解式问答

问题描述使用非结构化的知识库——维基百科来进行问答,其主要思想是先通过问题在维基百科上检索相关的文章,再对文章中的段落进行阅读理解,最后选出最可能的答案。这其中涉及到最重要的核心技术就是机器的阅读理解与问答。数据集早期的一些阅读理解数据集如MCTest、Algebra、Science等都有着数据量小、难度较大(回答问题需要额外的常识)等缺点。针对数据量小的问题,人们构造了阅读理解任务的一个变...

2019-09-25 15:07:14 1024

原创 CNN &Attention在nlp领域的应用

CNNRNN能够捕捉长文本的长距离依赖关系被广泛的应用在自然语言处理领域,然而RNN也有其不可忽略的缺点:1、RNN可能会出现梯度消失或梯度爆炸问题;2、RNN由于其结构的前后依赖关系导致其不能进行并行计算。https://kexue.fm/usr/uploads/2018/01/2257698255.pdfCNN实际上是NLP的标配方法,思路比RNN更加自然。Facebook大作《Conv...

2019-09-25 14:06:47 582

原创 智能客服

智能客服智能客服设计整体框架智能客服根据任务类型可以分为:咨询问答、任务型多轮对话、闲聊客服。智能客服原理咨询问答参考链接:QA机器人的本质是:假设用户提了一个问题Q,QA机器人需要从已有的QA数据库中寻找最合适的QA对返回,QA机器人会进行QQ相似度计算和QA匹配度计算,通过综合相似度与匹配度,找到最适合的一组QA对 (Qi, Ai),即最佳答案返回。设计思路1、客服根据常见...

2019-09-25 11:15:38 2513 3

原创 关键词提取面临问题及挑战

现有问题与挑战文章的关键词通常具有以下三个特点:1、 可读性。关键词本身应该是有意义的词或者短语。例如,“我们约会吧”是有意义的短语,而“我们”则不是。 2、相关性。关键词必须与文章的主题相关。例如,一篇介绍巴萨在德比中输给皇马的新闻,其中可能顺带提到了“中超联赛”这个关短语,这时就不希望这个短语被选取作为该新闻的关键词。 3、覆盖度。关键词集合能对文章的主题有较好的覆盖度,不能只集中在文章...

2019-09-25 10:16:06 1146

1212121121212212121121

1212121121212212121121

2024-07-19

高级信息系统项目管理工程师资料

高级信息系统项目管理工程师资料

2023-03-31

智能客服资源整理.pdf

智能客服多篇有参考价值的博客

2021-01-13

ChineseNumToArab.py

python 字符串中的中文数字转化成阿拉伯数字 eg:我的一百件商品have quality = 我的100件商品have quality

2020-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除