Jeu
码龄8年
关注
提问 私信
  • 博客:169,482
    169,482
    总访问量
  • 48
    原创
  • 1,806,243
    排名
  • 52
    粉丝
  • 0
    铁粉

个人简介:本科阶段专业是光信息科学与技术,研究生阶段课题是目标跟踪算法的研究,毕业后从事nlp相关领域的工作,包括对话系统、摘要生成、实体识别等

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2016-09-17
博客简介:

cuipanguo的博客

查看详细资料
个人成就
  • 获得84次点赞
  • 内容获得81次评论
  • 获得360次收藏
创作历程
  • 4篇
    2023年
  • 1篇
    2022年
  • 5篇
    2021年
  • 12篇
    2020年
  • 24篇
    2019年
  • 15篇
    2018年
成就勋章
TA的专栏
  • 对比学习
    1篇
  • 自然语言处理
    23篇
  • nlp
    14篇
  • 信息抽取
  • 文生图
    1篇
  • CV
    1篇
  • 小样本学习
    2篇
  • 实体识别
    4篇
  • 数据库
    1篇
  • 标签平滑
    1篇
  • 实体抽取
    1篇
  • 任务型对话
    1篇
  • java
    6篇
  • 数据集
    1篇
  • 分词
    4篇
  • 摘要提取
    3篇
  • 人工智能
    15篇
  • pytorch
    1篇
  • 文本分类
    11篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflownlp
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

codex

从github上爬下小于1MB的python文件,去除掉那些可能是自动生成的、平均每行长度大于100的、最大行长度大于1000的、几乎不含字母数字的。经过清洗处理后,最终得到1。:将清洗过后的数据集送入GPT3架构的模型中,。注意这里不再是基于GPT3做微调,也不再使用GPT3训好的权重。而是整个重新训练。
转载
发布博客 2023.03.09 ·
155 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

simcse模型

对比学习
转载
发布博客 2023.03.08 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

下拉框推荐-Suggest-SUG

下拉框推荐、sug、suggest
原创
发布博客 2023.02.28 ·
2163 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

chatgpt

chatgpt概要
转载
发布博客 2023.02.22 ·
4008 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

diffusion model

文生图的最新研究
原创
发布博客 2022.11.09 ·
188 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

prompt范式

1-范式发展历程:P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)--特征工程 P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)--架构工程P3. 预训练,精调范式 (Pre-train, Fine-tune)--目标工程 P4. 预训练,提示,预测范式(Pre-train, Prompt, Predict)--prompt挖掘工程从
原创
发布博客 2021.08.16 ·
2678 阅读 ·
5 点赞 ·
0 评论 ·
16 收藏

2021-04-12

NLP=自然语言处理和CV相比,nlp最大的特点是特征是离散的,不像cv中是一幅图,nlp是一个个的句子简单说几点nlp的难点: 1、相同意思的句子表达有多种:我爱踢足球;足球是我的爱好;我的爱好之一是足球 2、相同词在不同语境中意思不同:我喜欢苹果;我喜欢用苹果公司的产品 3、词的先后顺序直接影响语意:我爱你;你爱我 4、多加一个字直接影响语意:我爱吃西瓜;我不爱吃西瓜 5、语句中噪声多,真正影响语意的可能只有几...
原创
发布博客 2021.04.12 ·
656 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

NER实体识别漏标对模型性能的影响及优化方法

论文地址:https://arxiv.org/pdf/2012.05426.pdf1、先简单介绍一下一些基础的东西。我们在进行实体识别(NER)的时候,标注成本是很大的,同时难免会遇到标错和漏标实体的情况,在我看来,漏标和标错可以说是一个概念的,标错一般是指把非实体标实体,把实体标非实体,漏标一般是指把实体标非实体,无论是哪种情况,都会对模型产生两个方面的误导,一是实体样本的缺失,导致实体样本空间缩小;二是错标或者漏标会误导模型向相反的方向学习,就像漏标时,明明是一个实体,模型把他当作一个非实体去训练,
原创
发布博客 2021.03.10 ·
1389 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

挖坑

1、维特比算法和beamsearch算法的区别:https://blog.csdn.net/yiqingyang2012/article/details/54692686/?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242大致说一下,细致的公式之类的后面补充:维特比针对分词来说状态是比较少的,可穷举的,就像BIO,计算时只要计算到达此时状态时的每条路径的最大值就好,
原创
发布博客 2021.02.19 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ner计算准召的坑

1、踩了个大坑,记录一下声明:不喜欢写estimator所以才踩的坑1、from tensorflow.contrib import crf 如果想使用这个函数,tensorflow的版本号要在1.14以下,1.12就可以,不要相信那些乱七八糟要求各种版本的2、log_likelihood, trans = tf.contrib.crf.crf_log_likelihood( inputs=logits, tag_indices=self.labels, seque
原创
发布博客 2021.01.26 ·
528 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

NLP未来发展趋势

转载《https://mp.weixin.qq.com/s/HJytXba8s0A7VWgGVXSdOw》CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章,你相信么?但别惊讶,在即将召开的EMNLP'20的长文列表里,我们就真找到了这样一篇“奇文”。一篇论文引得众星云集,那解决的必然不是小问题。这不,作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里——Where is N
转载
发布博客 2020.11.23 ·
3177 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

bert的各种变形:Roberta、ALbert、SpanBert

---先挖个坑
转载
发布博客 2020.11.02 ·
1814 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

事件抽取、元素识别、事件去重相关论文阅读

1、Event co-reference resolution via a multi-loss neural network without suing argument information这篇文章
原创
发布博客 2020.11.02 ·
473 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

半天时间学习SQL语言

之前很少使用,但是换了新的工作,虽然还在远程办公,但发现用到的比较多,所以花半天时间学习下基本语言,主要是从w3school中学习(后续会逐步补充)1、sql主要分为两个部分:dml和ddl。DML主要是查询和更新,都是处理表中数据,包含select、update、insert、delete(删除表中数据);DDL更上一层,对表与表之间关系进行处理,如drop(删除表)、create、alte...
原创
发布博客 2020.04.13 ·
423 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

bert模型裁剪及标签平滑在短文本意图识别中的效果分析

1、bert网络模型base有12层,在下游任务中耗时严重2、意图识别类似于一个分类任务,真实标签向量其中一个位置1,其余位置全是0
原创
发布博客 2020.03.04 ·
1002 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

Batch_ normalization、Layer_ normalization、Weight_ normalization的异同

1、先说为什么会有BN: 我们在训练一个深度网络的时候,每一层的结果对整体结果都有很大影响的。而我们每次网络的输入都是batch_size大小的,这样做的目的是避免错误样本导致的梯度更新错误,而就是这样的batch_size个样本,他们在中间层的网络输出按道理来说应该分布是类似的,但是实际情况不是这样,他们的输出分布是乱七八糟的,网络层数越大,这种差异就越大,这就导致梯度更新方向手足无措,这...
原创
发布博客 2020.02.22 ·
505 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SGD和Adam(转载)

https://blog.csdn.net/weixin_42398658/article/details/84525917
转载
发布博客 2020.01.14 ·
3602 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

阿里、腾讯、滴滴等社招面试问题整理

1、为何会梯度消失和爆炸: 消失:BPTT时,多个激活函数导数的相乘导致 解决:LSTM、BN、RELU 爆炸:权重函数初始化过大, 解决:梯度截断2、word2vec、fasttext的区别: word2vec训练方式有两种,Cbow和Skip-gram,加速方法有两种层次softmax和负采样 cbow是...
原创
发布博客 2020.04.20 ·
1322 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

小蜜团队万字长文《读后简略概括》

1、对话系统主要分为三类:闲聊型+任务导向型+问答型 闲聊型:就是瞎聊,想聊啥就 聊啥 任务导向型:考虑多轮对话,根据对话的不同状态和槽位值进行回复策略的选择 问答型:一问一答,识别询问者的意图,从知识库中选取答案进行返回2、任务导向型:pipeline系统+端到端系统 pipeline系统:自然语言理解(槽值意图的识别)+对话状态跟踪+...
原创
发布博客 2020.01.07 ·
305 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

统计学习方法学习1.0

决策树决策树是一种分类和回归方法优点:模型可读性,分类速度快过程:特征选择、决策树的生成、决策树的剪枝损失函数:正则化的极大似然函数特征选择:多个特征时,如何选择某个特征作为判断的依据信息增益: 熵定义: 熵越大,随机变量的不确定性越大。 条件熵: ...
原创
发布博客 2020.01.07 ·
172 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多