自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 几种半监督的python实现(标签传播、半监督Kmeans、自训练)
原力计划

半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。它是一类可以自动地利用未标记的数据来提升学习性能的算法。pythonLabelPropagation和LabelSpreading(1)标记传播算法:优点:概念清晰缺点:存储开销大,难以直接处理大规模数据;而且对于新的样本加入,需要对原图重构并进行标记传播(2)迭代式标记传播算法:输入:有标记样本集Dl,未标记样...

2020-06-18 16:39:29 391

原创 面试准备——机器学习中的优化器算法
原力计划

Adam optimiser的局限性是什么?虽然使用Adam进行训练有助于快速收敛,但结果模型的泛化性能往往不如使用SGD进行动量训练时的泛化性能。另一个问题是,即使Adam有自适应学习率,当使用良好的学习率计划时,它的性能也会提高。特别是在训练的早期,使用较低的学习率来避免发散是有益的。这是因为在一开始,模型的权值是随机的,因此得到的梯度不是很可靠。如果学习率太大,可能会导致模型采取太大的步骤...

2020-06-15 20:17:19 111

原创 解决类别不平衡问题的方法综述
原力计划

样本不平衡怎样解决(在loss前加系数)数据不平衡  在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是所谓的“二八原理”。Focal loss参考网址:https://www.zhihu.com/question/269698662/a...

2020-06-13 17:08:47 187

原创 jieba关键词提取的源码解析
原力计划

一、简介1.什么是关键词关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。常用的关键词提取算法:TF-IDF算法、TextRank算法2.jieba关键词提取简介利用jieba进行关键字提取时,有两种接口。一个基于TF-IDF算法,一个基于TextRank算法。TF-IDF算法,完全基于词频统计来计算词的权重,然后排序,再返回TopK个词作为关键字

2020-06-09 19:12:26 180

原创 win10系统解决office16的VBE6EXT.OLB不能被加载的问题

环境:win10office16原因:本人电脑装上mathtype后某一天突然出现这个问题,打开VB编辑器就内存溢出,不停地弹出提示框,导致无法使用宏。虽然本人电脑上没装WPS,但看网上说很大可能是同时安装了office和WPS导致的。解决方法一打开控制面板,找到程序点开程序和功能找到 Microsoft Office 专业增强版 2016,右键 看到更改,点击更改程序运行后选择修复功能单选框 一直下一步,等待修复修复完成尝试是否Office运行正常解决方

2020-05-26 22:18:11 314

原创 把pip源从国外官方更换到国内镜像

pip国内的一些镜像阿里云 https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/豆瓣(douban) http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/修改源方法:临时使用:

2020-05-18 17:59:51 122

原创 运筹学中的节约里程法及其python实现
原力计划

节约里程法是用来解决运输车辆数目不确定的问题的最有名的启发式算法。又称节约算法或节约法,可以用并行方式和串行方式来优化行车距离。Saving Algorithm, 节约算法,又称C-W算法,是由Clarke和Wright于1964年首次提出的,用来解决VRP问题,是重要的物流算法。参考网址:节约里程法-百度百科节约里程算法的python实现C# 节约里程法实现...

2020-05-18 10:55:30 1057

原创 jupyter notebook安装和基础使用教程
原力计划

一、简介Jupyter Notebook是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。即,Jupyter Notebook以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。组成部分包括网页应用和文档。特点包括编程时具有语法高亮、缩进、tab补全的功能;可直接通过浏览器运行代码,同时在代码块下方展示运行结果;以富媒体格式展示计

2020-05-15 21:54:57 188

原创 pandas常见函数的用法(apply、groupby、agg)

1. apply方法apply方法就是将函数应用到由列或行形成的一维数组上。可以快速地对列进行处理,尤其是在进行多行计算的时候,相比于传统的轮循计算要高效很多。例如:import pandas as pddf=pd.DataFrame(np.random.randn(4,5),columns=list('abcde'))# 求每列的最大值与最小值的差x = df.apply(lambda x:x.max()-x.min())# 求每行的最大值与最小值的差y = df.apply(lambd

2020-05-15 16:43:40 433

原创 面试准备——计算机原理基础常见问题
原力计划

常见的HTTP状态码有哪些?200 OK301 Moved Permanently302 Found304 Not Modified307 Temporary Redirect400 Bad Request401 Unauthorized403 Forbidden404 Not Found410 Gone500 Internal Server Error501 Not Im...

2020-03-29 17:05:52 168

原创 使用sklearn、matplotlib等库时遇到的问题汇总

xgboost多分类时报错:label and prediction size not match, hint: use merror or mlogloss for multi-class classification解决:参数配置问题,sklearn接口下的xgboost时,配置更改如下:objective='multi:softprob', num_class=3,eval_metric...

2020-03-27 19:56:45 143

原创 面试准备——概率题/智力题
原力计划

一根棒子分成三段组成三角形的概率

2020-03-27 19:50:53 275

原创 机器学习中的归一化

如何解决样本不均衡的问题一、数据不平衡  在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是所谓的“二八原理”。如何解决过拟合参考网址:如何解决样本不均衡的问题怎样解决样本不平衡问题?聊一聊深度学习中的样本不平衡问题何恺明大神的「F...

2020-02-12 14:29:32 144

原创 python正则表达式及常用匹配

6个及6个以上的阿拉伯数字连续出现:re.findall('\d{6,}',line)匹配时间,冒号前面是一到两位的数字,后面是两位数字:(注意防止08:345、102:30这种情况出现,并考虑全角和半角冒号)re.findall('\D([0-9]|0[0-9]|1[0-9]|2[0-3]):[0-5][0-9]\D', '。'+line+'。')re.findall('\D([0-...

2020-02-12 14:15:48 108

原创 LeetCode总结——从2Sum、3Sum、3Sum Closest、4Sum到kSum

leetcode求和问题描述(K sum problem):给你一组N个数字(nums), 然后给你一个常数(target) ,我们的目标是在这一堆数里面找到K个数字,使得这K个数字的和等于target。注意事项(constraints):注意这一组数字可能有重复项:比如 1 1 2 3 , 求3sum, 然后 target = 6, 你搜的时候可能会得到 两组1 2 3, 1 2 3,1...

2020-02-12 11:42:34 68

原创 万门大学PPT技能速成班学习笔记

第一讲 对ppt的理解ppt做的好的人,一定是站在观众角度思考的人。审美决定一切。多看。推荐:站酷、花瓣初始化设置:1)撤销次数:文件——选项——高级——编辑选项——最多可取消操作数:1502)自动保存:文件——选项——保存——勾选自动保存,时间间隔10分钟3)幻灯片大小:设计——幻灯片大小第二讲 商务图表的应用和美化之道文字文字可以精准思路,使我们从规定好的角度去思考泛滥的特...

2020-02-06 11:32:36 1297 2

原创 面试准备——python知识

一、range和xrange的用法和区别二、深拷贝和浅拷贝copy.copy 浅拷贝 只拷贝父对象,不会拷贝对象的内部的子对象。copy.deepcopy 深拷贝 拷贝对象及其子对象三、python数据结构3.1 怎样去除list中的重复元素使用set或者dict...

2019-12-31 11:59:55 73

原创 论文笔记:Attention is All You Need

一步步解析Attention is All You Need!

2019-12-31 11:43:34 173

原创 五大经典算法(贪婪、动态规划、分治、回溯、分支限界法)及其联系和比较

一、贪心法贪心算法的定义:贪心算法(也叫贪婪算法)是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,只做出在某种意义上的局部最优解。贪心算法不是对所有问题都能得到全局最优解,得到的是局部最优解,关键是贪心策略的选择,不同的贪婪策略会导致得到差异非常大的结果。选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。解题的一般...

2019-11-27 20:28:55 936

原创 python中命令行工具模块argparse的使用

跑机器学习或深度学习实验的时候经常需要调各种参数,当把代码部署到服务器上时,如果直接在代码中改参数的大小,非常不方便,如果用argparse模块通过命令行传递参数到程序中,会使代码更方便简洁有序。argparse是python用于解析命令行参数和选项的标准模块,类似于linux中的ls指令,后面可以跟着不同的参数选项以实现不同的功能,argparse就可以解析命令行然后执行相应的操作。argp...

2019-11-25 20:49:43 90

原创 bert今生前世全总结

一、Bert简介谷歌AI实验室的BERT深刻影响了NLP的格局。BERT之后,许多NLP架构、训练方法与语言模型如雨后春笋般涌现,比如谷歌的TransformerXL、OpenAI’s GPT-2、 XLNet、ERNIE2.0、 RoBERTa等。BERT团队对该框架的描述:BERT全称Bidirectional Encoder Representations from Transfor...

2019-11-25 12:14:54 168

原创 论文笔记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding前言Google在2018年10月发表的一篇文章。AbstractBERT 表示来自 Transformer 的双向编码器表示(Bidirectional Encoder Representations from Tra...

2019-11-21 20:03:33 246

原创 论文笔记:Focal Loss for Dense Object Detection

论文链接: https://arxiv.org/pdf/1708.02002.pdf本篇论文是何恺明及其团队17年发表在ICCV上的paper。最初用于目标检测,因为解决了分类中类别不平衡的问题,nlp中也有应用。下面是各部分的要点,并非全文翻译。Abstract目前最高精度的目标检测器是基于由R-CNN推广的 two-stage 方法,其中分类器应用于稀疏的候选对象位置集。相比之下,...

2019-11-20 20:38:14 113

原创 论文笔记:XGBoost: A Scalable Tree Boosting System

这篇论文是Tianqi Chen2016年在arXiv上发表的。陈天奇是机器学习领域著名青年学者,本科就读于上海交大ACM班,华盛顿大学计算机系博士,开发了XGBoost、MXNet、TVM等知名机器学习工具。(因为原文内容较多,很多针对系统而非算法本身的内容,故没有逐句翻译,仅放上了每部分的核心内容,如想阅读全文翻译可以阅读参考网址。)Abstract提升树是一种高效且被广泛使用的机器学...

2019-11-12 21:05:43 102

转载 论文笔记:Investigating LSTM for Punctuation Prediction

据悉,标准的语音识别系统的输出是缺乏标点和句边界的。标点预测(punctuation prediction)技术,又称句边界检测(sentence boundary detection)或句切分(sentence segmentation)技术,是一种典型的序列标注机器学习任务,是指在缺乏标点的文本(如语音识别抄本)中加入标点或对篇章文本进行句子单元切分,目的是提高文本的可懂度,降低人工阅读的负荷...

2019-10-14 09:54:19 93

原创 梯度消失、梯度爆炸及其表现和解决方法

一、梯度消失梯度消失出现的原因:在深层网络中,如果激活函数的导数小于1,根据链式求导法则,靠近输入层的参数的梯度因为乘了很多的小于1的数而越来越小,最终就会趋近于0,例如sigmoid函数,其导数f′(x)=f(x)(1−f(x))的值域为(0,1/4),极易发生这种情况。所以梯度消失出现的原因经常是因为网络层次过深,以及激活函数选择不当,比如sigmoid函数。梯度消失的表现:模型无法...

2019-09-17 11:44:10 1743

原创 面试准备——动态规划(4):合并石头的最低成本 & 击爆气球

题目:有 N 堆石头排成一排,第 i 堆中有 stones[i] 块石头。每次移动(move)需要将连续的 K 堆石头合并为一堆,而这个移动的成本为这 K 堆石头的总数。找出把所有石头合并成一堆的最低成本。如果不可能,返回 -1 。(leetcode1000题)示例1:输入:stones = [3,2,4,1], K = 2输出:20解释:从 [3, 2, 4, 1] 开始。合并...

2019-08-26 16:26:59 288

原创 python字典相关常见操作

统计list中元素的个数构成字典两种方法:1.自建字典freqDict = {} for x in nums: freqDict[x] = 1 if x not in freqDict else freqDict[x]+12.collection库中的Counter方法count = collections.Counter(nums)取出字典...

2019-08-19 22:26:54 73

原创 二分类和多分类的性能评价指标及python计算

一、二分类real\predictPositiveNegativeTrueTPFNFalseFPTNTP、TN、FP、FN 中的第二个字母(列标首字母)是机器学习算法或模型预测的结果(正例:P、反例:N)TP、TN、FP、FN 中的第一个字母(行标首字母)是根据真实情况判断预测结果是否正确(正确:T、错误:F)即:正确地预测为正例:TP正确...

2019-08-15 16:05:29 6312 3

原创 使用pytorch时遇到的问题汇总

遇到问题:embedding的时候遇到数据加载的时候遇到TypeError: 'int' object is not callable问题:数据不是Tensor类型的而是np.array或其他类型的。解决:tensor = torch.LongTensor(data_x)data_x = autograd.Variable(tensor)tensor = torch.Long...

2019-08-09 17:11:25 5202 4

原创 WordPiece和BPE双字节编码

BERT 的模型结构是一个多层双向Transformer 编码器,整体的模型结构其实就是Transformer,但BERT的创新点在于:引入了掩码使得Transformer编码器能够使用双向信息加入两个预训练任务,实现NLP领域的迁移学习WordPieceWordPiece原理现在基本性能好一些的NLP模型,例如OpenAI GPT,google的BERT,在数据预处理的时候都会有Wor...

2019-07-29 21:07:08 1426

原创 pytorch中BiLSTM模型构建及序列标注

损失函数NLLLoss() 的 输入 是一个对数概率向量和一个目标标签. 它不会为我们计算对数概率,适合最后一层是log_softmax()的网络. 损失函数 CrossEntropyLoss() 与 NLLLoss() 类似, 唯一的不同是它为我们去做 softmax.可以理解为:CrossEntropyLoss()=log_softmax() + NLLLoss()...

2019-07-23 15:57:05 2379

原创 python字符串、列表、数组、变量等高频常见使用技巧

两个list合为字典python3返回迭代器:a = [1,2,3];b = [2,3,4]c = dict(zip(a,b))python2直接返回list类型,不需要类型转换。批量转换list中的数据类型python3返回迭代器:data = ['1','3.2','2']data = list(map(eval, data))data = ['1','3','2']da...

2019-07-22 12:35:58 139

原创 压缩感知原理简介

压缩感知,compressed sensing又称compressed sampling,是在采样过程中完成了数据压缩的过程。压缩感知在信号采样的过程中,用很少的采样点,实现了和全采样一样的效果。信号采样学过通信原理或信号与系统的都知道奈奎斯特采样定理,即想让采样之后的数字信号完整保留原始信号中的信息,采样频率必须大于信号中最高频率的2倍。原因是时域以τ为间隔进行采样,频域会以1/τ为周期发...

2019-07-15 21:51:23 2275 2

原创 python将汉字表示的数字和阿拉伯数字进行相互转换

一、阿拉伯数字转汉字分析发现,中国的数字习惯是 4 位一节的,一个 4 位的数字可被转成几千几百几十几,至于后面添加什么单位则不确定:如果这节 4 位数字出现在 1~4 位,则后面添加单位“元”;如果这节 4 位数字出现在 5~8 位,则后面添加单位“万”;如果这节 4 位数字出现在 9~12 位,则后面添加单位“亿”;多于 12 位就暂不考虑了。注意出现零的特殊情况:有多个零的情况...

2019-07-09 11:05:37 6437 1

原创 FST(Finite State Transducers, 有限状态转换器)简介及示例

一、简介Finite State Transducers 简称 FST, 中文名:有穷状态转换器。FST目前在语音识别和自然语言搜索、处理等方向被广泛应用。例如,在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的数学操作,来把若干个规则整合成一个单程的大型规则,以有效提高基于规则的系统(rule-based s...

2019-07-08 15:55:55 2804

原创 python构建带数字的古诗词数据集

一、数据准备:全唐诗数据集:https://github.com/todototry/AncientChinesePoemsDB从郑州大学图书馆网站上爬取下来的全唐诗库,收录了唐代诗人2539人的诗作42863首,共计900卷。该数据集格式为:每首诗一个txt文件,按照卷进行排序和命名。其中有一些为空白文件,总大小为5MB左右。中华古诗数据集:https://github.com/jack...

2019-07-04 12:24:08 1167 4

原创 docker使用

二、拉取镜像并启动拉取镜像这里我们使用了deepo镜像:https://hub.docker.com/r/ufoym/deepo/其下的 ufoym/deepo:all-py36-jupyter,该镜像收集了大部分深度学习框架,运行在GPU环境,以及配有jupyter。docker pull ufoym/deepo:all-py36-jupyter启动镜像默认配置(不推荐)n...

2019-07-01 09:55:03 244

原创 Keras实现BiLSTM+CRF字符级序列标注

BiLSTM即可实现分词或命名实体标注等序列标注任务,单独的CRF也可以很好的实现。但因为单独LSTM预测出来的标注可能会出现(I-Organization-> I-Person,B-Organization - > I-Person)这样的问题序列,所以需要搞一个LSTM + CRF的混合模型。这种错误在CRF中是不存在的,因为CRF的特征函数的存在就是为了对输入序列观察,学习各种...

2019-06-26 17:34:21 2776 8

原创 python同时读取多个文件

同时读取两个相同行的文件spokenfile = open('xxx.txt','r',encoding='utf-8')writtenfile = open('xxx.txt','r',encoding='utf-8')for line1,line2 in zip(spokenfile,writtenfile): s1 = line1 s2 = line2Python...

2019-06-21 11:17:43 7764

提示
确定要删除当前文章?
取消 删除