- 博客(14)
- 资源 (9)
- 收藏
- 关注
原创 对医疗数据进行分词的尝试(2)
通过对不同分词器以及建立用户和停用词字典的尝试,发现如果想要将所需要的词全部提取出来,必须建立非常完备的字典,但是,这个字典的建立需要耗时耗力,考虑到时间和人力问题,这个选择只能暂时靠边边了。因此,基于hanlp的词性以及依存句法来对医疗数据进行分词,从而提取其中的相关术语:第一步是基于词性,对其中的部分词性进行剔除,并保留一些词性组合:def extract_hanlp(text)...
2020-03-10 14:33:40 1282
原创 对文本相似性的尝试二三事
通过查看已有模型可以看出,已经将出现频率小于5次的词语进行了剔除因此,在放入实际数据进行计算相似度的时候,很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候,可以选择word2vec的增量训练,也可以选择对输出结果手动增量训练code:model_test.build_vocab(sentences_cut,update=True) #update = True ...
2020-01-17 14:58:47 181
原创 对医疗数据进行分词的尝试(1)
最近 手上拿到一些关于医疗的数据来进行分词,期望得到的结果是将药品,病症(包含'前期','中期','是否转移'等字样)作为关键词提取。首先尝试使用了常见的jieba分词,但是对于药品名称和病症并不能分出来,比如奥硝唑分散片转移性胰腺癌 等类似名词通过查找资料使用pkuseg进行分词,并且调用它自带的 medicine模型segcut = pkuseg.pkuseg(model_na...
2020-01-14 13:42:18 1877 2
转载 JAVA 01 -- 计算机基础知识
###01.01_计算机基础知识(计算机概述)(了解)* A:什么是计算机?计算机在生活中的应用举例 * 计算机(Computer)全称:电子计算机,俗称电脑。是一种能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成,没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。 * 应用举例 * 1:科学计算 * 2、数据处理 * 3、...
2018-06-20 10:59:12 238
原创 深度学习笔记1
第二章 线性代数数学这块,对机器学习和深度学习还是很必要的,不说很深入的理解,至少需要清楚一些基础知识。 基础概念:Ø 标量:单个数字(小写英文字母表示)Ø 向量:一列数字(小写英文字母加粗表示)Ø 矩阵:二维数组(大写英文字母加粗表示)Ø 张量:若干维度数组(大写英文字母加粗黑体表示)Ø 转置:矩阵的镜像翻转 Ø 矩阵乘积:AB 需维度对应Ø 矩阵点乘:AB 需维度对应Ø 向...
2018-05-30 10:56:03 286
原创 卷积神经网络介绍
在深度学习出现之前,我们必须借助SIFT,HOG等算法提取具有良好区分性的特征,再集合SVM等机器学习算法进行图像识别。 SIFT对一定程度内的缩放、平移、旋转、视角改变、亮度调整等畸变,都具有不变性。CNN作为一个深度学习架构被提出的最初诉求,是降低对图像数据 预处理的 要求,以及避免复杂可以的特征工程。CNN可以直接使用图像的原始像素作为输入,而不必使用SIFT等算法提取特征,减轻了使
2017-06-12 14:14:15 330
原创 论文总结1:关于图结构优化的无监督特征选择
摘要因为无标签和高维数据的不断增长,无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵,所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音,无法完全依赖于相似性矩阵。因此,本文提出一种无监督特征选择的方法能够有效选择特征,同时我们构造的相似性矩阵,能够从数据中获得更精确的有用信息。相关工作现有方法的问题: 不可靠的相似矩阵
2017-06-10 15:30:02 1012 1
转载 虚拟机下安装tensorflow
参考: http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.htmlAnaconda安装anaconda可以从其官网下载,但是速度比较慢。 清华大学提供了镜像,从这个镜像下载速度很快,地址: https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 直接从上
2017-06-05 11:20:49 659
转载 机器学习VS深度学习的区别
机器学习和深度学习简介 机器学习 Tom Mitchell 关于机器学习的定义被广泛引用,如下所示: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善,那么我们称这个计算机程序在从经验E学习。 “A computer program is said to learn from experience E with re
2017-05-30 08:54:46 3532
原创 利用Python进行数据分析 笔记4
MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条
2017-03-28 13:32:04 597
原创 利用Python进行数据分析 笔记3
用pandas对时区进行计数DataFrame是pandas中最重要的数据结构,它用于将数据表示为一个表格。从一组原始记录中创建DataFrame是很简单的:from pandas importDataFrame,Seriesimport pandas aspd;import numpyas npframe = DataFrame(records)print fra
2017-03-27 11:44:51 365
原创 利用Python进行数据分析——笔记2
用纯Python代码对时区进行计数(注:原来使用pylab输入代码,不太方便,就换成了Pycharm编辑器)假设我们想要知道该数据集中最常出现的是哪个时区(即tz字段),得到答案的办法有很多。import jsonpath ='G:/python/pydata-book-master/ch02/1.txt'records=[json.loads(line) forline
2017-03-26 15:18:36 363
转载 谷歌大规模机器学习:模型训练、特征工程和算法选择ppt
什么是机器学习(ML)?从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。ML 的类型:监督学习;无监督学习;半监督学习;……监督学习:用于训练的输入数据有标记。分类(学习决策边界)。 示例:文本/图像/视频分类,垃圾邮件检测等回归(学习预测连续值)。 示例:预测房价,预
2017-03-25 16:51:31 2802
原创 利用Python进行数据分析 笔记1
第二章 引言来自bit.ly的1.usa.gov数据(注:这里的代码是在pylab中写的,在GUI中写的结果是一样的。关于路径问题,一开始卡住了,后来发现是自己的问题,没有把路径写全,格式也不正确。)以每小时快照为例,文件中各行的格式为JSON(即JavaScript Object Notation,这是一种常用的Web数据格式)。例如如果我们只读取某个文件的第一行,那么你所看到的结果
2017-03-25 16:46:20 514
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人