自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(145)
  • 资源 (11)
  • 论坛 (1)
  • 收藏
  • 关注

原创 NLP 基础&应用研究方向简介

Tracking Progress in Natural Language Processinghttps://github.com/sebastianruder/NLP-progress

2019-07-05 17:25:16 1417

原创 python异常处理/try except

REF:https://www.runoob.com/python/python-exceptions.html1.直接跳过try: xxexcept: pass2.抛出错误try: xxexcept: print( {"msg": "input format error,detail is {}".format(traceback.format_exc()), "code": -1, "data": {}} )

2021-09-08 12:03:10 17

原创 ffmpeg[ubuntu]安装教程

ffmpeg[ubuntu]安装教程apt安装`apt install ffmpeg (本地源可能失效,请换成可用的源,参考https://www.cnblogs.com/zz27zz/p/9442160.html)方法2 一键安装:wget http://download.bt.cn/install/ext/ffmpeg.sh && sh ffmpeg.sh`方法3:ubuntu安装https://blog.csdn.net/lwgkzl/article/details/778

2021-08-28 23:38:55 8

原创 NLP数据增强

1.背景在NLP任务中常常数据不均衡或者数据量不足的情况,这时可以用数据增强相关技术增加数据量。2.相关技术2.1.EDAhttps://github.com/gmftbyGMFTBY/EDA-NLP-Chinese2.2.回译比如,中->英->中2.3.MLM扣词填空2.4 simberthttps://github.com/ZhuiyiTechnology/roformer-simhttps://github.com/ZhuiyiTechnology/simbert

2021-08-04 19:53:03 15

原创 【linux】修改端口权限

1.查看端口是否开通lsof -i:端口2.修改端口权限https://www.cnblogs.com/kxm87/p/9561054.html

2021-08-03 11:34:06 11

原创 【论文阅读】Dimensionality Reduction by Learning an Invariant Mapping

1.背景对比学习算是比较早就已经提出了一种技术。其中,早期比较有名的一篇文章就是Lecun等在《Dimensionality Reduction by Learning an Invariant Mapping》(简称 DrLIM)文章中提出的对比学习,它主要是通过NN(非线性function)+对比学习任务实现降维,不过当前主要用于作为多任务的一个任务提升模型效果。这篇文章提出的一段时间以来,对比学习的研究主要集中在CV领域。尤其是最近,自监督学习的兴起,CV领域的一些知名学者又对此做了新的探索,带起

2021-08-03 11:33:03 16

原创 【论文阅读】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

1.背景目前,很多应用中都因为用了多任务取得了不错的效果,那么如何将这些任务的loss有机组合在一起?一种简答粗暴方法就是手动调节多任务之间的loss的相对权重,然后加和,如下:这种方式把权重作为超参调试的方式,往往耗时耗力。本文参考[1]就如何动态设置多任务(分类与回归)之间的loss的相对权重做简单介绍。2.解决方案在贝叶斯建模中,认为模型有一些不确定性(随机变量),可能是先验问题导致的,也有可能是后验问题导致的,大体可将其分为两种,如下:认知不确定性:数据不足导致的模型学习不足的不确

2021-08-03 11:31:54 16

原创 python编程要点

refhttps://www.python.org/dev/peps/pep-0008/https://www.python.org/dev/peps/pep-0020/

2021-08-03 11:30:22 18

原创 NLP数据预处理

数据拆分from sklearn.model_selection import train_test_splittrain_data, dev_data = train_test_split(raw_data,random_state=1,test_size = 0.25)

2021-07-08 18:23:57 21

原创 ubuntu新建用户及为其赋予权限

1.新用户新建用户useradd xxx添加密码passwd xxx删除用户userdel xxx2.配置zsh1).将/etc/passwd中的当前用户的sh改为zsh参考https://jingyan.baidu.com/article/7e4409537a34c42fc0e2ef26.html未完待续

2021-06-01 17:40:59 21 1

原创 【FAQ】roberta‘s vocab file must a json file/中文roberta使用方法

在使用transformers中,使用中文roberta预训练模型,出现如下:roberta’s vocab file must a json fileroberta模型加载失败1.how?官网https://huggingface.co/hfl/chinese-roberta-wwm-ext介绍预训练模型使用方法https://github.com/ymcui/Chinese-BERT-wwm中提到①依托于Huggingface-Transformers 2.2.2,可轻松调用以上(RBT,

2021-05-11 11:01:44 73

原创 python中xls与xlsx格式互转

1.pyexcel# 安装包pip install pyexcel pyexcel-xls pyexcel-xlsx# 代码import pyexcel as pp.save_book_as(file_name='your-file-in.xls', dest_file_name='your-new-file-out.xlsx')2.pyexcel-cli$ pip install pyexcel-cli$ pyexcel transcode your-fi

2021-05-06 16:26:35 72

原创 pytorch conv1d原理说明

conv1d原理说明总结:以文本为例,conv1d是将文本的序列长度维度和embedding维度进行压缩,序列长度这一维按照正常的CNN压缩,embedding维度压缩为1Ref:https://blog.csdn.net/sunny_xsc1994/article/details/82969867conv1d官方接口Link:https://pytorch.org/docs/stable/generated/torch.nn.Conv1d.html?highlight=conv1d#torch.

2021-03-01 10:51:33 375

原创 爬虫入门

1、获取网页内容1)get方法,直接获取response = requests.get(url).content.decode('utf-8')2)get方法,指定header内容url = '‘ # 指定浏览器代理,可以通过浏览器查看;也可以指定其他信息,headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Ch

2020-12-26 14:37:50 59

原创 python时间操作

须知通常的时间戳是从1970-01-01 00:00:00开始算的格式化操作默认时间格式修改datetime.datetime(2020, 12, 10, 14, 55, 36, 705048) --> '2020-12-10 14:55:24'now=datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S')时长格式化比如:52950 -> 00:55:24def ms2hms(ms): import time

2020-12-10 15:33:35 52

原创 ffprobe/ffmpeg音频操作入门

打印数据相关信息(音频时长等)ffprobe -of xml -show_data xxx.mp3# -of xml,指定输出格式为xml,也可指定为XML、INI、JSON、CSV、FLAT等格式ref:https://www.jianshu.com/p/e14bc2551cfd

2020-12-09 16:08:29 45 1

原创 NLP常见词/典汇总

语气词( 参见百度百科):#1.辅音 单音节吧|罢|呗|啵|的|价|家|啦|来|唻|了|嘞|哩|咧|咯|啰|喽|吗|嘛|嚜|么|哪|呢|呐|否|呵|哈|不|兮|般|则|连|罗|给|噻|哉|呸|#2.辅音 多音节罢了|不成|得了|而已|的话|来着|了得|也罢|已而|着呢|着哩|着呐|来的|也好|便了|起见|就是|似地|是的|一般|一样|再说|不过#2.元音阿|啊|呃|欸|哇|呀|也|耶|哟|欤|呕|噢|呦|嘢标点符号(参见百度百科)#中文标点。| ?| !|,|、|;|:#英文标点

2020-11-25 11:24:29 139 2

原创 【ML】相关性分析&回归分析

1、背景2、相关工作2.1 相关性分析&回归分析t检验:小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异https://www.matongxue.com/madocs/580/https://zhuanlan.zhihu.com/p/124072225方差分析:判断多组间之间的差距性https://www.zhihu.com/question/61319844相关分析之相关系数:度量两个变量之间线性相关的方向和强度的测度https://blog.csdn.n

2020-10-27 12:00:21 95

原创 flask实现一个简单的服务

参见:https://github.com/aiainui/server_by_flask.git

2020-10-19 20:04:36 87

原创 mac 软件卸载后无法安装

参见: mac cisco 卸载后无法安装https://www.jianshu.com/p/ed5433e2fbbe# 查找pkgutil --pkgs|grep com.cisco# 命令执行结果com.cisco.pkg.anyconnect.vpn# 注销该链接sudo pkgutil --forget com.cisco.pkg.anyconnect.vpn

2020-09-08 20:05:07 220

原创 Mac&python安装FAQ

Q: Library not loaded: @rpath/libsodium.23.dylib?A:# 先卸载conda uninstall libsodium# 后安装conda install libsodium

2020-09-07 18:40:41 46

原创 python封装json/解析json/读写json

读jsonwith open("test.json",'r', encoding="utf-8") as load_f: # 读json并且转为dict load_dict = json.load(load_f)写jsonwith open("test.json", "w", encoding='utf-8') as f: # json.dump(dict_var, f) # 写为一行 json.dump(dict_var, f,indent=2,sort_keys=Tr

2020-09-03 14:53:11 95

原创 python发邮件(带附件)

通过zmail包发邮件,如下以qq邮箱为例#coding: utf-8#author: dyl#date: 2020/8/27 2:35 下午#IDE: PyCharmimport zmailimport smtplib #加载smtplib模块from email.mime.text import MIMETextfrom email.utils import formataddrfrom email.mime.multipart import MIMEMultipart

2020-08-29 22:41:21 100

原创 linux中文乱码FAQ

Q:can’t find command locale-gen?A:RUN apt-get clean && apt-get update && apt-get install -y localesRUN locale-gen en_US.UTF-8Q: Cannot set LC_CTYPE to default locale: No such file or directory?A:/etc/default/locale file add follow:.

2020-08-22 13:44:28 49

原创 pandas处理数据/excel/csv文件

读文件import pandas as pddf = pd.read_excel('test.xlsx')获取数据# 获取数据并转listdata = df.values.tolist()# 获取表头名head_names = list(testset1.columns)写文件# data_lists 数据:二维数组# header_list 表头:一位数组data_lists = [[1,2,3],[4,5,6]]header_list = ["列名1","列名2","列名

2020-08-18 12:22:51 137

原创 python常见方法汇总

sorted方法对字典排序def sorted_by_value(dict_data, reverse=True): """ 字典按值降序排序 :param dict_data: dict数据 :reverse 控制是否升降序 :return: 返回排好序的词典,(python3.6版本以后,词典有序并且可排序) """ return dict(sorted(dict_data.items(), key=lambda x: x[1], reve

2020-08-18 11:14:25 72

原创 psrecord安装

pip install psrecordref:https://github.com/astrofrog/psrecordFAQ:1、unable to execute ‘gcc’: No such file or directory?sudo apt-get install gcc python3-dev2、仓库 “http://mirrors.aliyun.com/ubuntu gutsy Release” 没有 Release 文件?ref:https://www.cnblogs.com

2020-07-30 12:09:31 82

原创 pyecharts实战之树图

简易版code:# 简易版import osimport jsonfrom pyecharts.charts import Treefrom pyecharts import options as optsdata = [{ "name": "flare", "children": [ { "name": "flex", "children": [ {"name": "FlareV

2020-05-12 19:49:45 622

原创 【python性能测试】line_profiler每行代码的耗时统计/空间占用/整体性能分析

安装line_profilerpip install line_profiler -i https://pypi.tuna.tsinghua.edu.cn/simple# 参考 https://github.com/pyutils/line_profiler添加@profile想统计那个方法的耗时,就在方法头添加装饰器@profile,如下所示:ex:test.pyfrom line_profiler import LineProfiler@profiledef test(self):

2020-05-09 18:21:56 515

原创 pyecharts实战之直方图

code:from pyecharts.charts import Barfrom pyecharts import options as optsy_data = [1,2,3,4,5,6,7,8]x_data = [10,2,3,4,5,6,7,8]bar = ( Bar() .add_xaxis(x_data) .add_yaxis("", ...

2020-05-08 15:08:04 1129

原创 mac在conda虚拟环境安装jupyter & 使用

安装conda for macsh Anaconda3-5.2.0-Linux-x86_64.sh#next,...,yes ...(如果yes失败请输入no)cd ~/anaconda3/#重命名,防止与系统默认的同名mkdir bin_backcp bin/python bin_back/python3cp bin/pip bin_back/pip3#确保python和pip已...

2020-05-06 18:41:39 334

原创 词形还原调研

词形还原:就是去掉单词的词缀,提取单词的主干部分(原型),比如:复数变单数分词变原型形容词/副词比较级变原型相关工具NLTK实现:python安装:pip install nltk项目路径:https://github.com/nltk/nltk测试:from nltk.stem import WordNetLemmatizerwnl = WordNetLemmat...

2020-04-23 23:12:37 94

原创 python与字符编解码

0 初识进制字符在计算机世界是以0和1表示的,他们有着一一对应的关系,所以我们从二进制认起进制一般表示Python表示其他2进制0011 01010b0011 01018进制650o65\065 \6516进制350x35\x3510进制5353ps: 加"\"来转义常见的那些不能显示的ASCII字符,同时它已经不是传统意...

2020-04-09 23:07:33 79

原创 python/shell文件下载/断点续传

shellwget http://xxx.xxx.xxxpython断点续传# -*- coding: utf-8 -*-# 断点续传import sysimport requestsimport osimport time# 屏蔽warning信息requests.packages.urllib3.disable_warnings()def download...

2020-03-15 23:47:19 270

原创 cuda/cuda 10.1安装教程

准备材料下载地址&安装教程:https://developer.nvidia.com/cuda-toolkit-archive安装过程cuda 10.1 安装示例:#下载安装包wget https://developer.download.nvidia.cn/compute/cuda/10.1/secure/Prod/local_installers/cuda_10.1.16...

2020-03-09 15:53:00 3378 1

原创 音频格式转换(ffmpeg)

ffmpeg -i 音频x -acodec pcm_s16le -ac 1 -ar 16000 音频y-i: 表示输入的音频或视频-ac: channel 设置通道3, 默认为1-ar: sample rate 设置音频采样率-acodec: 使用codec编解码,pcm_s16le指位深16bit,转flac此处参数则需改成flac-ab: bitrate 设置音频码率-vn: 不...

2020-02-15 17:56:38 347

原创 python面向对象编程

参考资料https://www.cnblogs.com/CYHISTW/p/10966448.htmlhttps://www.runoob.com/python/python-object.html

2020-01-19 16:06:27 68

原创 python多线程编程

0 前言全局解释锁(GIL)在python多线程编程学习之前,十分有必要了解下什么叫python的全局解释锁(GIL),这里我简单介绍下这个锁的作用:任何一个时间点只有一个线程处于执行状态多个CPU核的多线程框架下都只允许一次运行一个线程看到上面两个说明,简直崩溃,单核只允许一个线程执行我就忍了,多核也是一样,简直不能忍,所以在做某一任务时,我们需要如下考虑:1) 假设我们的机器是...

2020-01-14 12:27:04 93

原创 视频抽音频 相关操作(ffmpeg)

视频中抽音频[python]# -*- coding: utf-8 -*-from moviepy.editor import *import timestart = time.clock()def audio_extract(video_path, audio_path): # 如果有同名的音频文件,先删除 if os.path.exists(audio_path)...

2020-01-08 18:04:01 238

原创 HLS/m3u8视频相关操作入门(ffmpeg)

mp4转ts格式ffmpeg -i b.mp4 -codec copy -bsf h264_mp4toannexb a.tshls(m3u8)下载并转mp4格式ffmpeg -i https://xxx.xxx.xxx/xxx.m3u8 -c copy -absf aac_adtstoasc output.mp4ts(多个ts文件)转mp4文件ffmpeg -y -f concat ...

2020-01-04 20:12:14 230

词向量-word2vec中的数学原理详解.pdf

词向量-word2vec中的数学原理详解

2019-07-29

DbVisualizer 客户端安装、连接oracle服务器端等各种设置

DbVisualizer 客户端安装、连接oracle服务器端等各种设置

2015-09-15

语音识别-自动化所-课件

语音识别-自动化所-ppt

2019-08-01

boost_1_53_0_beta1.tar.gz

boost_1_53_0_beta1.tar.gz

2019-07-30

词向量-开山之作1-Efficient estimation of word representations in vector space.pdf

词向量开山之作第一篇,讲述作者第一次提出词向量。在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot representation和distribution representation。

2019-07-29

bert v2.0.pdf

预训练在⾃然语⾔处理的发展:从Word Embedding到BERT模型

2019-07-29

htkbook.pdf

语音识别 htk工具包

2019-07-31

自然语言理解.rar

统计自然语言处理 课件 清华大学出版社 中文信心处理丛书

2019-07-29

词向量-开山之作2_Distributed Representations of Sentences and Documents.pdf

Many machine learning algorithms require the input to be represented as a fixed-length feature vector. When it comes to texts, one of the most common fixed-length features is bag-of-words. Despite their popularity, bag-of-words features have two major weaknesses: they lose the ordering of the words and they also ignore semantics of the words. For example, “powerful,” “strong” and “Paris” are equally distant. In this paper, we propose Paragraph Vector, an unsupervised algorithm that learns fixed-length feature representations from variable-length pieces of texts, such as sentences, paragraphs, and documents. Our algorithm represents each document by a dense vector which is trained to predict words in the document. Its construction gives our algorithm the potential to overcome the weaknesses of bag-ofwords models. Empirical results show that Paragraph Vectors outperform bag-of-words models as well as other techniques for text representations. Finally, we achieve new state-of-the-art results on several text classification and sentiment analysis tasks

2019-07-29

cmake_3.5.1.orig.tar.gz

编译工具 cmake 3.5.1

2019-07-30

计算机语言.rar

自然语言处理 计算语言学课件

2019-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除