深度学习
记录自己深度学习的日常总结
Fitz1318
安全运维工程师,加油!...
展开
-
中心性算法的简单总结
中心性算法的简单总结中心性(Centrality)是社交网络分析(Social network analysis, SNA)中用以衡量网络中一个点或者一个人在整个网络中接近中心程度的一个概念,这个程度用数字来表示就被称作为中心度。也就是说,通过了解一个节点的中心性,从而判断这个节点在网络中所占据的重要性。在图论和网络分析中,中心性指标可确定图中的最重要节点。 其应用包括识别社交网络中最有影响力的人,互联网或城市网络中的关键基础设施节点以及疾病的超级传播者。中心性算法主要用于识别图中特定节点的角色及原创 2022-05-07 18:10:14 · 5359 阅读 · 0 评论 -
SimCSE初步使用且和Bert的简单对比
SimCSE初步使用且和Bert的简单对比在很多 NLP 任务中都会用到句子向量,例如文本检索、文本粗排、语义匹配等任务。现在有不少基于 Bert 的方式获取句子向量,例如 Bert-flow 和 Bert-whitening 等,这些方法会对预训练 Bert 的输出进行变换从而得到更好的句子向量。本文介绍 SimCSE,SimCSE 通过对比学习的方法训练模型,取得 SOTA 的效果。模型下载huggingface这个网站真的是太棒了。提供了封装好后的SimCSE。其实SimCSE也是在Bert原创 2022-03-24 12:10:49 · 5564 阅读 · 16 评论 -
用stanfordCoreNLP进行中文分词时出现json编码错误
用stanfordCoreNLP进行中文分词时出现错误json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)最近准备使用stanfordCoreNLP进行中文分词,使用的是最新的coreNLP4.2版本,即使运行简单的下面代码,都会报错from stanfordcorenlp import StanfordCoreNLPnlp = StanfordCoreNLP(r'stanfordnlp', lang="zh")原创 2021-11-25 16:15:07 · 3139 阅读 · 9 评论 -
OSError [E053] Could not read config
OSError: [E053] Could not read config.cfg from C:\Users\pc\AppData\Local\Programs\Python\Python38\Lib\site-packages\en_core_web_md\en_core_web_md-2.2.5\config.cfg。在执行nlp = spacy.load("en_core_web_sm")代码时报错OSError: [E053] Could not read config.cfg from C:原创 2021-08-15 17:13:27 · 3635 阅读 · 0 评论 -
解决python -m spacy download en_core_web_sm连接不上服务器的方案
最近复原一个实验时遇到了spacy,然后用python -m spacy download en_core_web_sm这个命令时出现了连接不上服务器,经过搜索,解决了问题,现将解决方案记录一下首先去Github去寻找你需要的en_core_web_sm,网址是https://github.com/explosion/spacy-models/releases/tag/en_core_web_sm-3.1.0。这里要注意对应自己本地的spacy版本网页往下拉,下载如下红框中所示资源.原创 2021-08-15 17:08:08 · 6256 阅读 · 4 评论 -
UnicodeDecodeError ‘gbk‘ codec can‘t decode byte 0x93 in position 6325 illegal multibyte sequence
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 6325: illegal multibyte sequence最近复现代码时遇到这个问题,故记录一下。原始答案来自https://stackoverflow.com/questions/21504319/python-3-csv-file-giving-unicodedecodeerror-utf-8-codec-cant-decode-byte-err解决方案原创 2021-08-14 16:53:06 · 1194 阅读 · 0 评论 -
nltk词性表示
CC 并列连词 NNS 名词复数 UH 感叹词CD 基数词 NNP 专有名词 VB 动词原型DT 限定符 NNP 专有名词复数 VBD 动词过去式EX 存在词 PDT 前置限定词 VBG 动名词或现在分词FW 外来词 POS 所有格结尾 VBN 动词过去分词IN 介词或从属连词 PRP 人称代词 VBP原创 2021-08-10 22:29:14 · 692 阅读 · 0 评论 -
nltk.download()命令运行失败解决方案
nltk.download()命令运行失败解决方案当我们在安装NLTK包时会使用nltk.download(),但是通常是连接不上服务器,经过搜索,发现一种解决的方案,在这里做个记录。通常出错截图如下解决方案下载nltk的数据文件。链接:https://pan.baidu.com/s/1UTNZZwQDSjECdcpq5qXPPQ提取码:jq3j下载之后将其解压,放在上面图片所示的路径下面注意nltk_data的文件夹下面就是所有文件,不要在嵌套一层,如下图所示在嵌套一原创 2021-08-09 19:20:40 · 2204 阅读 · 0 评论 -
急速下载CUDA的小技巧
英伟达的网站访问都很慢了,更别说下载CUDA.那么有一个技巧可以急速下载,快到飞起。只需要将https://developer.nvidia.com/cuda-toolkit改成https://developer.nvidia.cn/cuda-toolkit,然后就是见证奇迹的时刻原创 2021-04-19 21:09:01 · 1365 阅读 · 3 评论 -
伪标签(Pseudo-Labelling)
大数据时代中,在推荐、广告领域样本的获取从来都不是问题,似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野,但实际上在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。伪标签的定义伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。举个简单的半监督学习例子,我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型,但是专家标注一张胸片图像要收费,于是我掏空自己的钱包让专家帮我标注了10张胸片,可是我这10张图片又要划分.转载 2020-11-29 21:51:35 · 12156 阅读 · 7 评论 -
自然语言处理--文本表示
自然语言处理–文本表示引言所谓文本表示既是通过某种形式将文本字符串表示成计算机所能处理的数值向量。那么为什么要进行文本表示,根本原因是计算机不能直接对文本字符串进行处理,因此需要进行数值化或者向量化。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程,只不过这个过程可能直接包含在了深度学习网络中;同时,良好的文本表示形式也可以极大的提升算法效果。表示方法分类文本表示一直以来都是自然语言处理研究领域中的一个热点问题,总体来讲主要分为二大类,One-hot Representation ,直转载 2020-11-12 16:42:17 · 1283 阅读 · 0 评论 -
WordNet的主要功能介绍
WordNet的主要功能介绍上位词/下位词hypernyms() # 上位(父类)hyponyms() # 下位(子类)同义词/反义词lemma_names() # 同义antonyms() # 反义蕴涵关系entailments()整体与部位part_meronyms() # 部分substance_meronyms() # 实质member_holonyms() # 成员计算概念之间距离path_similari原创 2020-11-12 16:22:53 · 750 阅读 · 0 评论 -
点互信息PMI(Pointwise Mutual Information)
最近在看文献时遇到了PMI(Pointwise Mutual Information),中文名叫点互信息.概念与定义PMI这个指标通常用来衡量两个事物之间的相关性,比如两个词,其原理很简单,公司如下PMI(x;y)=logp(x,y)p(x)p(y)=logp(x∣y)p(x)=logp(y∣x)p(y)PMI(x;y) = \log\frac{p(x,y)}{p(x)p(y)} = \log\frac{p(x|y)}{p(x)} = \log\frac{p(y|x)}{p(y)}PMI(.原创 2020-11-11 21:34:59 · 7349 阅读 · 0 评论 -
李宏毅2020机器学习深度学习(完整版)国语课程PPT
课程全部内容PPT链接:https://pan.baidu.com/s/1A2pwtwLPUOnPpjjSpfYpXg提取码:nd6c原创 2020-10-26 23:09:53 · 9515 阅读 · 3 评论 -
TermExtractorRelated的使用
TermExtractorRelated的使用前几天师兄把TermExtractorRelated这个短语抽取工具交给我,让我借用其来完成我的短语抽取工作,下面是具体的使用方式这个是工具包下载链接https://download.csdn.net/download/Fitz1318/12911242打开C:\Users\qingbaobao\Desktop\TermExtractorRelated\TermExtractorRelated\termextractor_monitor\termex原创 2020-10-04 17:19:18 · 323 阅读 · 0 评论 -
张钹院士:第三代人工智能的特点、发展现状及未来趋势
今天有幸听到张钹院士及其团队在学校做的报告,故转载一下张钹院士对于第三代人工智能的特点、发展现状及未来趋势本文转载自https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/108612820 来源:探臻科技评论 本文约6100字,建议阅读13分钟。 本文为中国科学院张钹院士关于人工智能发展趋势的分析判断,主要回顾人工智能发展的历史,以及系统阐释第三代人工智能的特点、发展现状及未来趋势。 作者简介: 张钹,清华大学计算机系教授,中科转载 2020-09-28 18:27:41 · 1011 阅读 · 0 评论 -
js匹配单词边界遇到分隔符-这个问题
js匹配单词边界遇到分隔符"-"这个问题正则\b匹配单词边界,对于XXX-XX这好像除了问题,例如frequency这个问题暂时还不知道怎么解决原创 2020-09-27 18:11:35 · 240 阅读 · 0 评论 -
实现关键短语提取之后根据置信度在文本中进行高亮展示
实现关键短语提取之后根据置信度在文本中进行高亮展示在前面几篇博客中,我提到了之前实现这个问题的想法,之后经过考虑打算使用js中的正则表达式实现。js的正则表达式有一个单词边界的工具,对于解决问题有很大的帮助,要不然就会出现如下图问题:en虽然是一个关键短语,但是我需要的en是它单独出现的单词,而不是他在类似于下图sent里面en高亮,所以金国查询我们找到了单词边界[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWC8ahqz-1601201236596)(C:\Use.原创 2020-09-27 18:07:55 · 601 阅读 · 1 评论 -
js通过单词边界精确替换字符串中指定文字
js精确替换字符串中指定文字最近遇到一个需求就是把一段文本中的指定字符替换成我想要的东西。例如// str 是一个字符串类型的公式, 只把其中的运算数a替换成d,但不能把运算数abc中的a替换成dlet str = 'a+abc+(m*c)';经过查找,发现了正则表达式里面还有单词边界这个神奇的东西\b,使用这个工具,上述问题的解决方案为let str = 'a+abc+(m*c)';let reg = /\ba\b/g;console.log(str.replace(reg,'d'));原创 2020-09-27 17:44:28 · 306 阅读 · 0 评论 -
JS生成动态正则表达式
JS生成动态正则表达式js里面常见的正则格式是var reg = /^abc$;,但是这里面是无法加入动态字符串的。,所以经过搜索发现RgeExp这个函数,然后测试了一下,发现原来这样就可以动态生成正则表达式了keyWords = ['virtual','vi','mo','mobile','qwert']; for (let i = 0; i < keyWords.length; i++) { if (keyWords[i] !== '') { l原创 2020-09-27 17:36:50 · 7669 阅读 · 0 评论 -
几个想法实现关键短语提取之后根据置信度在文本中进行高亮展示
几个想法实现关键短语提取之后根据置信度在文本中进行高亮展示Python正则表达式替换,将匹配到的东西替换成短语Mysql数据库,将匹配到的东西替换成 短语Python3中的包AC自动机实现短语定位(begin,end),然后怎么进行高亮Python中的word包,正则表达式实现高度直接先把关键短语按置信度清洗好,对所有的短语,按照行顺序依次进行匹配js中正则表达式同时实现多个关键字高亮,将其变成一个html文件,进行高亮展示...原创 2020-09-27 17:25:27 · 157 阅读 · 0 评论 -
使用docker 复现顶会文章里面的工具SegPhrase
使用docker 复现顶会文章里面的工具SegPhraseJialu Liu*, Jingbo Shang*, Chi Wang, Xiang Ren and Jiawei Han, "MiningQuality Phrases from Massive TextCorpora”, Proc. of2015 ACM SIGMOD Int. Conf. on Management of Data (SIGMOD’15), Melbourne,Australia, May 2015. (* equ原创 2020-09-16 21:58:10 · 395 阅读 · 2 评论 -
使用docker复现顶会论文Autophrase
复现顶会论文autophrase使用docker搭建开发环境我在这里使用的是docker环境,根据作者的readme文件,首先使用命令docker run -v /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/data -v /Users/qingbaobao/Desktop/AutoPhrase/models:/autophrase/models -it -e RAW_TRAIN=data/input.txt -e ENABLE_P原创 2020-09-16 18:11:05 · 1079 阅读 · 0 评论 -
隐含马尔科夫模型
隐含马尔科夫模型是上述马尔科夫链的一个扩展:任一时刻t的状态StS_tSt是不可见的。所以观察者没法通过观察到一个状态序列S1,S2,S3,...STS_1,S_2,S_3,...S_TS1,S2,S3,...ST来推测转移概率等参数。但是,隐含马尔科夫模型在每个时刻t会输出一个符号OtO_tOt,而且OtO_tOt跟StS_tSt相关且仅跟StS_tSt相关。这个被称为独立输出假设。隐含马尔科夫模型的结构如下:其中隐含的状态S1,S2,S3,...S_1,S_2,S_3,...S1,S原创 2020-08-15 21:27:12 · 187 阅读 · 0 评论 -
Automated Phrase
Automated Phrase Mining from Massive Text Corpora海量文本语料库中的自动短语挖掘ABSTRACT摘要As one of the fundamental tasks in text analysis, phrase mining aims at extracting quality phrases from a text corpus.Phrase mining is important in various tasks such as informa原创 2020-08-14 19:14:01 · 1196 阅读 · 0 评论 -
19_DMKD_A Review of Keyphrase Extraction
A Review of Keyphrase Extraction关键短语提取概述Keyphrase extraction is a textual information processing task concerned with the automatic extraction of representative and characteristic phrases from a document that express all the key aspects of its content. Ke原创 2020-08-14 16:19:30 · 548 阅读 · 0 评论 -
18_EMNLP_Keyphrase Generation with Correlation Constraints
18_EMNLP_Keyphrase Generation with Correlation Constraints具有相关约束的关键字短语生成Abstract概要In this paper, we study automatic keyphrase generation. Although conventional approaches to this task show promising results, they neglect correlation among keyphrases, r原创 2020-08-14 15:17:10 · 318 阅读 · 0 评论 -
15_VLDB_Scalable topical phrase mining from text
While most topic modeling algorithms model text corpora with unigrams, human interpretation often relies on inherent grouping of terms into phrases. As such, we consider the problem of discovering topical phrases of mixed lengths.Existing work either perf原创 2020-08-12 17:25:45 · 423 阅读 · 0 评论 -
PDF翻译神器,再也不担心读不懂英文Paper了
如果你经常跟文献打交道,那你应该切身体验过那种令人抓狂的心情:流畅地阅读 PDF 外文文献,必要情况下还得逐字逐句地翻译出来。例如,主流翻译引擎之一的谷歌翻译关键时刻会掉链子:甚至一旦我的文件大小超过 1MB,就只能尝试拆分成为较小的文档。要知道,一篇普通的文献,不加图片只有文字,转换过来也有 1MB 大小。我为什么不选择直接复制粘粘?然后,接下来的画面更加惨不忍睹……直接通过PDF复制粘贴到翻译引擎中的文档,对多余换行并没有任何处理。我们常说“翻译无国界”,于是我求助了翻译公司,却觉得不太划算转载 2020-08-11 08:31:29 · 1672 阅读 · 0 评论 -
马尔可夫模型
一、马尔科夫模型1.1 马尔可夫过程马尔可夫过程(Markov process)是一类随机过程。由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 )。例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。马尔科夫过程中最核心的几个概念:过去,现在,将来。其中最核心的在于“现在”如何理解转载 2020-08-10 19:49:09 · 9149 阅读 · 0 评论 -
基于mnist数据集,建立mlp模型,实现0-9数字的十分类
mnist数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28*28像素的灰度手写数字图片。一共四个文件,训练集、训练集标签、测试机、测测试集标签实现mnist数据载入,可视化图形数字实现数据预处理,图像数据维度转换与归一化,输出结果格式转换计算模型在预测数据集的准确率模型结构:两层隐藏层,每层有392个神经元实现mnist数据载入,可视化图形数字加载mnist数据集from matplotlib import pypl.原创 2020-08-02 21:29:03 · 2525 阅读 · 0 评论 -
神经网络的学习
神经网络中的符号确认[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FpVsby1F-1595769270349)(C:\Users\qingbaobao\AppData\Roaming\Typora\typora-user-images\image-20200725200242463.png)]从输入层到第一层的信号传递[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0s9TVfeg-1595769270352)(C:\Users\.原创 2020-07-26 21:14:49 · 117 阅读 · 0 评论 -
Matplotlib 教程
介绍Matplotlib 可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。这里将会探索 matplotlib 的常见用法。IPython 以及 pylab 模式IPython 是 Python 的一个增强版本。它在下列方面有所增强:命名输入输出、使用系统命令(shell commands)、排错(debug)能力。我们在命令行终端给 IPython 加上参数 -pylab (0.12 以后的版本是 --pylab)之后,就可以像 Mat转载 2020-07-23 21:36:59 · 386 阅读 · 0 评论 -
NumPy学习(2)
NumPy学习(2)数组操作修改数组形状翻转数组修改数组维度连接数组分割数组数组元素的添加与删除修改数组形状函数描述reshape不改变数据的条件下修改形状flat数组元素迭代器flatten返回一份数组拷贝,对拷贝所作的修改不会影响原始数组ravel返回展开数组numpy.reshapenumpy.reshape函数可以在不改变数据的条件下修改形状,格式如下numpy.reshape(arr,newsahpe,order='C')原创 2020-07-22 22:09:09 · 152 阅读 · 0 评论 -
NumPy初体验
NumPyNumPy 是一个运行速度非常快的数学库,主要用于数组计算,包含:一个强大的N维数组对象ndarray广播功能函数整合C/C++/Fortran代码的工具线性代数、傅里叶变换、随机数生成等功能数组属性NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2,以此类推。在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。属性说明ndarray.ndim秩,即原创 2020-07-21 23:51:37 · 702 阅读 · 0 评论