pytorch安装及基本使用(win10+CPU+Python3.6)

pytorch这两年越来越流行,定义网络结构简单,而且还很直观灵活,数据加载快。 一、安装 登陆pytorch官网。 选择合适的环境: 运行安装命令: pip3 install https://download.pytorch.org/whl/cpu/torch-1.1.0-cp36-...

2019-06-18 16:19:27

阅读数 18

评论数 0

pandas数据缺失值填充的几种方法

常见的数据缺失填充方式分为很多种,比如删除法、均值法、回归法、KNN、MICE、EM等等。R语言包中在此方面比较全面,python稍差。 python目前已有的两种常见的包,第一个是impyute,第二个是fancyimpute。比如fancyimpute中集成了很多方式,包括均值、众数、频数填充...

2019-06-14 10:37:41

阅读数 17

评论数 0

论文笔记:A Mostly Data-driven Approach to Inverse Text Normalization

这篇文章是苹果公司发表在语音识别顶会INTERSPEECH2017上的一篇文章。 将逆文本化(ITN)转为标签问题的方法 Siri 使用标准的格式化方式来展示日期、时间、地址和金额等对象。这是由于在语音识别的核心组件的输出上应用了一个被称之为逆转文本标准化(ITN,Inverse Text Nor...

2019-05-31 14:58:19

阅读数 21

评论数 0

基于word2vec的疾病和手术相关词语的相似度计算

项目需要预测是否患有骨质疏松,患者所做手术是其中的一维特征,因此需要得到骨质疏松或骨量减少和手术之间的关系,此处选择用word2vec得到词语之间的相似度。 用gensim学习word2vec gensim是一个很好用的Python NLP的包,不光可以用于使用word2vec,还有很多其他的AP...

2019-05-27 16:41:38

阅读数 30

评论数 0

FM分解机及其变种(FFM、DeepFM)原理详解

FM(分解机,Factorization Machines) 线性回归: y^(x)=w0+w1x1+w2x2+...+wnxn=w0+∑i=1nwixi\hat{y}(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n=w_0+\sum^n_{i=1}w_ix_iy^​(x)=w...

2019-05-20 17:37:05

阅读数 43

评论数 0

机器学习中的数学原理——矩阵论

正定矩阵 在线性代数里,正定矩阵 (positive definite matrix) 有时会简称为正定阵。 定义: AAA是n阶方阵,如果对任何非零向量xxx,都有xTAx>0x^TAx>0xTAx>0,其中xTx^TxT 表示xxx的转...

2019-05-20 11:29:52

阅读数 103

评论数 0

python数据预处理——直方图和热力图绘制

一、绘制直方图 首先读入数据 def read_data(): path = '../data/forCodeF-2.csv' data = pd.read_csv(path,encoding='gbk') return data 然后调用matplotlib.pyplo...

2019-05-17 16:47:49

阅读数 19

评论数 0

使用sklearn对数据进行标准化/正则化

一、标准化/正则化 1. 0-1标准化 也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下: x∗=x−minmax−minx^*= \frac{x-min} {max-min}x∗=max−minx−min​ 其中max为样本数据的最大值,min为样本数据的最小值。这...

2019-05-17 15:38:47

阅读数 6

评论数 0

使用中文维基百科训练word2vec模型

1.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 首先把需要下载的东西都列出来 一、下载内容 1.语料:下载地址是https://dumps.wikimedi...

2019-05-08 19:43:34

阅读数 26

评论数 0

基于医疗知识图谱的问答系统源码详解

项目还是找的中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。 该项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。...

2019-05-06 16:19:55

阅读数 519

评论数 5

基于医疗知识图谱的问答实践中遇到的问题

问题1:ahocorasick安装失败 原因:改名为pyahocorasick,pip安装依然失败。error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools&qu...

2019-04-22 17:19:34

阅读数 491

评论数 10

Neo4j安装及简单使用

一、Neo4j和图数据库简介 neo4j是基于Java语言编写图形数据库。图是一组节点和连接这些节点的关系。图形数据库也被称为图形数据库管理系统或GDBMS。 Neo4j的是一种流行的图形数据库。 其他的图形数据库是Oracle NoSQL数据库,OrientDB,HypherGraphDB,Gr...

2019-04-15 21:47:39

阅读数 36

评论数 0

Seq2Seq和Attention机制详解

一、Seq2Seq简介 seq2seq模型最早可追溯到2014年的两篇paper [1, 2],主要用于机器翻译任务(MT)。 seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达...

2019-04-12 11:29:20

阅读数 296

评论数 0

TensorFlow实现单层及多层LSTM的MNIST分类和可视化

The MNIST data-set MNIST data-set由一些黑白照片集合组成,每张照片包含手写的数字。图像被格式成28*28像素,并可表示成一个数值矩阵。集合中60000张照片用来训练模型,10000张照片用来测试模型。MNIST data-set可通过网络在MNIST数据库中获得。 ...

2019-04-09 10:08:27

阅读数 149

评论数 0

面试准备-RNN和LSTM

LSTM结构推导,为什么比RNN好? 推导forget gate,input gate,cell state, hidden information等的变化;因为LSTM有进有出且当前的cell informaton是通过input gate控制之后叠加的,RNN是叠乘,因此LSTM可以防止梯度消...

2019-04-08 16:07:53

阅读数 606

评论数 1

Bi-LSTM原理及TensorFlow实现序列标注

本文整理了Bi-LSTM的原理,并在静觅博客静觅:TensorFlow Bi-LSTM实现序列标注 的基础上对TensorFlow 搭建一个Bi-LSTM来处理序列标注问题的代码进行了详细的注释。 Bi-LSTM理解 RNN的意思是,为了预测最后的结果,我先用第一个词预测,当然,只用第一个预测的...

2019-04-02 16:58:21

阅读数 344

评论数 5

半监督学习

半监督学习简介 自从 1946 年第一台电子计算机 ENIAC 诞生至今,计算机技术得到了迅猛的发展,这使得人类采集、存储数据的能力空前的提高,利用计算机对收集到的数据进行分析提取有价值信息的技术(机器学习技术)也随之而生,并得到了很快的发展。传统的机器学习技术一般只利用有标记样本集或者只利用无标...

2018-12-24 21:27:06

阅读数 455

评论数 0

神经进化

引言 梯度or进化 梯度下降和进化算法的比较: 在梯度下降中, 我们需要的只是梯度, 让这个神经网络的参数滑到梯度躺平的地方就好了, 因为梯度给你指明了一个优化的方向, 所以如果是监督学习, 优化起来会非常快. 而神经网络的进化, 使用的却是另一种手段. 用原始的点创造出很多新的点, 然后通过新的...

2018-12-12 21:18:04

阅读数 72

评论数 0

进化策略原理

上一篇遗传算法中提到了进化策略。这一篇扩展一下,具体细节详见莫烦老师网站。 进化策略与遗传算法 进化策略 (Evolution Strategy)是另一种使用进化理论的优化模式,与遗传算法略有不同。 用一句话概括ES: 在程序里生宝宝, 杀死不乖的宝宝, 让乖宝宝继续生宝宝. ES和GA的不同有以...

2018-12-12 19:43:59

阅读数 278

评论数 0

遗传算法原理

一、遗传算法简介 遗传算法是进化算法的一个分支. 它将达尔文的进化理论搬进了计算机. 科学定义如下: **遗传算法(Genetic Algorithm, GA)**起源于对生物系统所进行的计算机模拟研究。它是模仿自然界生物进化机制发展起来的随机全局搜索和优化方法,借鉴了达尔文的进化论和孟德尔的遗传...

2018-12-12 16:47:35

阅读数 228

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭