自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(171)
  • 资源 (12)
  • 收藏
  • 关注

原创 NLP 基础&应用研究方向简介

Tracking Progress in Natural Language Processinghttps://github.com/sebastianruder/NLP-progress

2019-07-05 17:25:16 2038 2

原创 conda虚拟环境迁移

conda虚拟环境迁移

2022-09-22 15:10:56 238

原创 pyinstaller打包python/fastapi项目为exe

pyinstaller打包python、fastapi项目

2022-09-21 10:01:44 174

原创 pytorch/torch安装简明教程

pytorch/torch安装简明教程

2022-09-09 17:37:13 428

原创 python:字符串的base64转码与解码

字符串与base64互转,pandas json串与base64互转

2022-08-25 16:52:30 155 1

原创 python logging封装一个简单的日志工具

logging封装日志文件

2022-08-10 11:49:16 213 2

原创 [论文分享/阅读]Normalization/正则化分享总结

Normalization/正则化综述与底层原理

2022-07-28 18:36:48 92 3

原创 [技术调研]数据不平衡解决方法调研

数据不平衡解决方法调研

2022-07-28 18:30:18 64

原创 [论文阅读]NeurIPS 2021论文预讲会总结

NeurIPS 2021论文预讲会总结

2022-07-28 18:26:11 152

原创 【技术调研】英语/中文的拼写/语法纠错调研

英语拼写纠错/语法纠错调研

2022-07-28 18:20:35 55

原创 使用编辑距离实现英语单词纠错-面向对象实现

使用编辑距离实现英语单词纠错,面向对象实现

2022-07-28 18:14:21 74

原创 使用编辑距离实现英语单词纠错-面向过程实现

面向过程,使用编辑距离完成单词纠错

2022-07-28 18:10:13 62

原创 linux下如何安装python以及一些注意事项

linux下如何安装python,以及一些注意事项

2022-07-22 17:33:02 429

原创 linux下安装python虚拟环境的两种方法

linux下如何安装python:virtualenv和conda两者的优缺点

2022-07-22 17:10:17 630

原创 ACL2022国内部分论文分享内容总结1

ACL 国内部分论文 主要内容总结

2022-06-30 09:43:08 203 2

原创 模型的可解析性&特征重要性调研

概念https://zhuanlan.zhihu.com/p/51506824概要https://christophm.github.io/interpretable-ml-book/index.htmlhttps://zhuanlan.zhihu.com/p/141013178决策树之类/NNimportancehttps://shimo.im/docs/25q5Mm4PK6iaExqD/ 《重要性分析调研》通用模型可解释性LIMEhttps://zhuanlan.zhihu.com/p/3

2022-06-03 16:43:05 35 2

原创 信息论相关知识-熵

1.交叉熵参见:https://zhuanlan.zhihu.com/p/56638625进一步说明:2.相对熵(也称之为:KL散度)3.互信息互信息越大,说明X越依赖于Y,Y透露出的信息越大ref:各种熵的介绍

2022-05-30 09:40:25 55

原创 多分类loss、softmax loss与交叉熵的关系

0、引子:多分类loss采用的是softmax loss,也可称之为softmax交叉熵loss,这个loss中的q就使用的是模型的softmax输出,它就是用来拟合真正的§编码长度的期望交叉熵越低,这个策略就越好,最低的交叉熵也就是使用了真实分布所计算出来的信息熵,因为此时 ,交叉熵 = 信息熵。这也是为什么在机器学习中的分类算法中,我们总是最小化交叉熵,因为交叉熵越低,就证明由算法所产生的策略最接近最优策略,也间接证明我们算法所算出的非真实分布越接近真实分布。参见:https://www.cnbl

2022-05-30 09:37:40 476

原创 AutoML之自动超参调优

一、自动超参调优(炼丹自动化)简介: 超参自动调优NNI(重点)NNI文档:https://nni.readthedocs.io/zh/stable/Tutorial/QuickStart.htmlNNI代码:https://github.com/microsoft/nni/blob/master/README_zh_CN.md视频教程:https://www.bilibili.com/video/BV1SA411x7TB二、AUTOML(炼丹全流程自动化)1.简介其AutoML从特征工程

2022-05-28 19:30:53 154

原创 【conda问题】安装依赖遇到问题

1.参考网上的方案:https://zhuanlan.zhihu.com/p/3085690272.可能是你的环境不支持其他镜像,打开.condarc文件,清空里面的内容:vim /root/.condarc

2022-04-25 14:40:58 236

原创 词向量存pkl格式

import osimport numpy as npdef load_cn_wiki_wordvec(s_word_vec_path): n_vocab_num = 0 n_word_dim = 0 m_word_vec ={} m_word_id = {} with open(s_word_vec_path, "r", encoding="utf-8") as fp: for i, s_line in enumerate(fp):

2022-04-25 10:12:08 153

原创 IDEA导入maven项目极简教程

假如有一个现成的maven项目,如何正确导入?1.导入项目:2.设置maven版本和本地maven库路径3.设置jdk版本注意:jdk版本一定要对,jdk不支持向下兼容,所以一定要选好jdk版本(我这里设置的是1.8_64位)4.设置字符编码格式其他问题:1.如何导入本地jar包?A:可以直接IDEA导入外部依赖,也可以存储在本地maven库...

2022-04-19 11:20:43 71

原创 java正则

1.compile + matcherimport java.util.regex.Matcher;import java.util.regex.Pattern;String source = new String("");Pattern CHINESE_PATTERN = Pattern.compile("[\\u4E00-\\u9FA5]");source = underline_pattern.matcher(source).replaceAll("");2.replaceAll

2022-04-11 09:42:01 191

原创 预训练模型汇总:下载地址&综述

常见类似bert,albert,roberta, bart等预训练模型下载地址汇总

2022-02-28 16:24:55 633

原创 模型格式转换

albert模型TensorFlow转pytorch格式代码见github

2022-02-28 16:16:31 339

原创 idea构建spring boot时报错解决

错误如下:Error:Internal error: (java.lang.IllegalAccessError) class com.intellij.util.io.FileChannelUtil (in unnamed module @0x4b168fa9) cannot access class sun.nio.ch.FileChannelImpl (in module java.base) because module java.base does not export sun.nio.ch t

2022-02-15 11:32:56 1612

原创 datetime/time的常用用法

import datetimeimport time# 天数的加减mytime = datetime.date.today()mytime = mytime - datetime.timedelta(days=1)# str转datetimet_day = '2020-03-12'datetime.datetime.strptime(t_day, "%Y-%m-%d")# datetime获取天级别的日期mydate.date()# 获取当前时间time_local =

2022-01-18 15:18:00 186

原创 Ubuntu 18.04 安装 NVIDIA 显卡驱动

Ubuntu 18.04 安装 NVIDIA 显卡驱动https://zhuanlan.zhihu.com/p/59618999注意点:新系统的签名要重新注册要禁用nouveau(新安装方法)其他:https://zhuanlan.zhihu.com/p/63584709

2022-01-12 10:42:59 259

原创 requirements.txt文档生成利器之pipreqs

pipreqs 的好处是:相比直接用 freeze 命令,能直接隔离其它项目的包生成pipreqspip install pipreqs pipreqs . --encoding=utf8 -force老办法:pip install freeze pip freeze >requirements.txt

2022-01-11 11:28:24 156

原创 python异常处理/try except

REF:https://www.runoob.com/python/python-exceptions.html1.直接跳过try: xxexcept: pass2.抛出错误try: xxexcept: print( {"msg": "input format error,detail is {}".format(traceback.format_exc()), "code": -1, "data": {}} )

2021-09-08 12:03:10 45

原创 ffmpeg[ubuntu]安装教程

ffmpeg[ubuntu]安装教程apt安装`apt install ffmpeg (本地源可能失效,请换成可用的源,参考https://www.cnblogs.com/zz27zz/p/9442160.html)方法2 一键安装:wget http://download.bt.cn/install/ext/ffmpeg.sh && sh ffmpeg.sh`方法3:ubuntu安装https://blog.csdn.net/lwgkzl/article/details/778

2021-08-28 23:38:55 91

原创 NLP数据增强

1.背景在NLP任务中常常数据不均衡或者数据量不足的情况,这时可以用数据增强相关技术增加数据量。2.相关技术2.1.EDAhttps://github.com/gmftbyGMFTBY/EDA-NLP-Chinese2.2.回译比如,中->英->中2.3.MLM扣词填空2.4 simberthttps://github.com/ZhuiyiTechnology/roformer-simhttps://github.com/ZhuiyiTechnology/simbert

2021-08-04 19:53:03 54

原创 【linux】修改端口权限

1.查看端口是否开通lsof -i:端口2.修改端口权限https://www.cnblogs.com/kxm87/p/9561054.html

2021-08-03 11:34:06 131

原创 【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping

1.背景对比学习算是比较早就已经提出了一种技术。其中,早期比较有名的一篇文章就是Lecun等在《Dimensionality Reduction by Learning an Invariant Mapping》(简称 DrLIM)文章中提出的对比学习,它主要是通过NN(非线性function)+对比学习任务实现降维,不过当前主要用于作为多任务的一个任务提升模型效果。这篇文章提出的一段时间以来,对比学习的研究主要集中在CV领域。尤其是最近,自监督学习的兴起,CV领域的一些知名学者又对此做了新的探索,带起

2021-08-03 11:33:03 243

原创 【论文阅读】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

1.背景目前,很多应用中都因为用了多任务取得了不错的效果,那么如何将这些任务的loss有机组合在一起?一种简答粗暴方法就是手动调节多任务之间的loss的相对权重,然后加和,如下:这种方式把权重作为超参调试的方式,往往耗时耗力。本文参考[1]就如何动态设置多任务(分类与回归)之间的loss的相对权重做简单介绍。2.解决方案在贝叶斯建模中,认为模型有一些不确定性(随机变量),可能是先验问题导致的,也有可能是后验问题导致的,大体可将其分为两种,如下:认知不确定性:数据不足导致的模型学习不足的不确

2021-08-03 11:31:54 414 2

原创 python编程要点

refhttps://www.python.org/dev/peps/pep-0008/https://www.python.org/dev/peps/pep-0020/

2021-08-03 11:30:22 47

原创 NLP数据预处理

数据拆分from sklearn.model_selection import train_test_splittrain_data, dev_data = train_test_split(raw_data,random_state=1,test_size = 0.25)

2021-07-08 18:23:57 69

原创 ubuntu新建用户及为其赋予权限

1.新用户新建用户useradd xxx添加密码passwd xxx删除用户userdel xxx2.配置zsh1).将/etc/passwd中的当前用户的sh改为zsh参考https://jingyan.baidu.com/article/7e4409537a34c42fc0e2ef26.html未完待续

2021-06-01 17:40:59 269 1

原创 【FAQ】roberta‘s vocab file must a json file/中文roberta使用方法

在使用transformers中,使用中文roberta预训练模型,出现如下:roberta’s vocab file must a json fileroberta模型加载失败1.how?官网https://huggingface.co/hfl/chinese-roberta-wwm-ext介绍预训练模型使用方法https://github.com/ymcui/Chinese-BERT-wwm中提到①依托于Huggingface-Transformers 2.2.2,可轻松调用以上(RBT,

2021-05-11 11:01:44 262

原创 python中xls与xlsx格式互转

1.pyexcel# 安装包pip install pyexcel pyexcel-xls pyexcel-xlsx# 代码import pyexcel as pp.save_book_as(file_name='your-file-in.xls', dest_file_name='your-new-file-out.xlsx')2.pyexcel-cli$ pip install pyexcel-cli$ pyexcel transcode your-fi

2021-05-06 16:26:35 305

jdk1.8版本64位

jdk1.8 64位

2022-04-06

语音识别-自动化所-课件

语音识别-自动化所-ppt

2019-08-01

htkbook.pdf

语音识别 htk工具包

2019-07-31

boost_1_53_0_beta1.tar.gz

boost_1_53_0_beta1.tar.gz

2019-07-30

cmake_3.5.1.orig.tar.gz

编译工具 cmake 3.5.1

2019-07-30

bert v2.0.pdf

预训练在⾃然语⾔处理的发展:从Word Embedding到BERT模型

2019-07-29

计算机语言.rar

自然语言处理 计算语言学课件

2019-07-29

自然语言理解.rar

统计自然语言处理 课件 清华大学出版社 中文信心处理丛书

2019-07-29

词向量-开山之作2_Distributed Representations of Sentences and Documents.pdf

Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, “powerful,” “strong” and “Paris” are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-ofwords models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks

2019-07-29

词向量-开山之作1-Efficient estimation of word representations in vector space.pdf

词向量开山之作第一篇,讲述作者第一次提出词向量。在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot representation和distribution representation。

2019-07-29

词向量-word2vec中的数学原理详解.pdf

词向量-word2vec中的数学原理详解

2019-07-29

DbVisualizer 客户端安装、连接oracle服务器端等各种设置

DbVisualizer 客户端安装、连接oracle服务器端等各种设置

2015-09-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除