自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (9)
  • 收藏
  • 关注

原创 对医疗数据进行分词的尝试(2)

通过对不同分词器以及建立用户和停用词字典的尝试,发现如果想要将所需要的词全部提取出来,必须建立非常完备的字典,但是,这个字典的建立需要耗时耗力,考虑到时间和人力问题,这个选择只能暂时靠边边了。因此,基于hanlp的词性以及依存句法来对医疗数据进行分词,从而提取其中的相关术语:第一步是基于词性,对其中的部分词性进行剔除,并保留一些词性组合:def extract_hanlp(text)...

2020-03-10 14:33:40 1258

原创 对文本相似性的尝试二三事

通过查看已有模型可以看出,已经将出现频率小于5次的词语进行了剔除因此,在放入实际数据进行计算相似度的时候,很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候,可以选择word2vec的增量训练,也可以选择对输出结果手动增量训练code:model_test.build_vocab(sentences_cut,update=True) #update = True ...

2020-01-17 14:58:47 178

原创 对医疗数据进行分词的尝试(1)

最近 手上拿到一些关于医疗的数据来进行分词,期望得到的结果是将药品,病症(包含'前期','中期','是否转移'等字样)作为关键词提取。首先尝试使用了常见的jieba分词,但是对于药品名称和病症并不能分出来,比如奥硝唑分散片转移性胰腺癌 等类似名词通过查找资料使用pkuseg进行分词,并且调用它自带的 medicine模型segcut = pkuseg.pkuseg(model_na...

2020-01-14 13:42:18 1836 2

转载 JAVA 01 -- 计算机基础知识

###01.01_计算机基础知识(计算机概述)(了解)* A:什么是计算机?计算机在生活中的应用举例 * 计算机(Computer)全称:电子计算机,俗称电脑。是一种能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成,没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。 * 应用举例  * 1:科学计算  * 2、数据处理  * 3、...

2018-06-20 10:59:12 224

原创 深度学习笔记1

第二章 线性代数数学这块,对机器学习和深度学习还是很必要的,不说很深入的理解,至少需要清楚一些基础知识。 基础概念:Ø  标量:单个数字(小写英文字母表示)Ø  向量:一列数字(小写英文字母加粗表示)Ø  矩阵:二维数组(大写英文字母加粗表示)Ø  张量:若干维度数组(大写英文字母加粗黑体表示)Ø  转置:矩阵的镜像翻转 Ø  矩阵乘积:AB 需维度对应Ø    矩阵点乘:AB 需维度对应Ø  向...

2018-05-30 10:56:03 275

原创 卷积神经网络介绍

在深度学习出现之前,我们必须借助SIFT,HOG等算法提取具有良好区分性的特征,再集合SVM等机器学习算法进行图像识别。 SIFT对一定程度内的缩放、平移、旋转、视角改变、亮度调整等畸变,都具有不变性。CNN作为一个深度学习架构被提出的最初诉求,是降低对图像数据 预处理的 要求,以及避免复杂可以的特征工程。CNN可以直接使用图像的原始像素作为输入,而不必使用SIFT等算法提取特征,减轻了使

2017-06-12 14:14:15 324

原创 论文总结1:关于图结构优化的无监督特征选择

摘要因为无标签和高维数据的不断增长,无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵,所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音,无法完全依赖于相似性矩阵。因此,本文提出一种无监督特征选择的方法能够有效选择特征,同时我们构造的相似性矩阵,能够从数据中获得更精确的有用信息。相关工作现有方法的问题: 不可靠的相似矩阵

2017-06-10 15:30:02 1003 1

转载 虚拟机下安装tensorflow

参考: http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.htmlAnaconda安装anaconda可以从其官网下载,但是速度比较慢。 清华大学提供了镜像,从这个镜像下载速度很快,地址: https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 直接从上

2017-06-05 11:20:49 652

转载 机器学习VS深度学习的区别

机器学习和深度学习简介  机器学习  Tom Mitchell 关于机器学习的定义被广泛引用,如下所示:  对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善,那么我们称这个计算机程序在从经验E学习。  “A computer program is said to learn from experience E with re

2017-05-30 08:54:46 3525

原创 利用Python进行数据分析 笔记4

MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条

2017-03-28 13:32:04 590

原创 利用Python进行数据分析 笔记3

用pandas对时区进行计数DataFrame是pandas中最重要的数据结构,它用于将数据表示为一个表格。从一组原始记录中创建DataFrame是很简单的:from pandas importDataFrame,Seriesimport pandas aspd;import numpyas npframe = DataFrame(records)print fra

2017-03-27 11:44:51 359

原创 利用Python进行数据分析——笔记2

用纯Python代码对时区进行计数(注:原来使用pylab输入代码,不太方便,就换成了Pycharm编辑器)假设我们想要知道该数据集中最常出现的是哪个时区(即tz字段),得到答案的办法有很多。import jsonpath ='G:/python/pydata-book-master/ch02/1.txt'records=[json.loads(line) forline

2017-03-26 15:18:36 358

转载 谷歌大规模机器学习:模型训练、特征工程和算法选择ppt

什么是机器学习(ML)?从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。ML 的类型:监督学习;无监督学习;半监督学习;……监督学习:用于训练的输入数据有标记。分类(学习决策边界)。 示例:文本/图像/视频分类,垃圾邮件检测等回归(学习预测连续值)。 示例:预测房价,预

2017-03-25 16:51:31 2780

原创 利用Python进行数据分析 笔记1

第二章 引言来自bit.ly的1.usa.gov数据(注:这里的代码是在pylab中写的,在GUI中写的结果是一样的。关于路径问题,一开始卡住了,后来发现是自己的问题,没有把路径写全,格式也不正确。)以每小时快照为例,文件中各行的格式为JSON(即JavaScript Object Notation,这是一种常用的Web数据格式)。例如如果我们只读取某个文件的第一行,那么你所看到的结果

2017-03-25 16:46:20 506

PCA代码汇总

因为修改算法需要,找到了一些PCA代码,上传上来,希望对大家有帮助

2018-05-29

迁移学习总结仅供参考

目前迁移学习的进展,参考了一些资料做的总结,希望能够对大家的研究提供帮助~~

2018-05-29

ECML-迁移学习

关于异构迁移学习和ecoc编码解码结合的求解多分类的方法

2017-11-07

迁移学习综述

迁移学习的综述 涉及同构异构

2017-06-09

机器学习简史

机器学习的发展历程 Brief+History+of+Machine+Learning+–+Chatbot+News+Daily.pdf

2017-05-30

python基础案例100

Python基础案例 入门级别

2017-04-23

斯坦福大学机器学习原版讲义

斯坦福大学机器学习的原版讲义,对机器学习感兴趣的童鞋可以看看,里面介绍了一些算法及公式的推导

2017-03-23

每周一篇期刊:针对AD诊断的多模板研究

每周读一篇外文期刊,分享一下~这周阅读的是有关AD/MCI诊断的多模板研究,中间提到的算法有稀疏特征选择以及SVM,还有就是多模板的应用

2017-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除