![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
isbndyy
这个作者很懒,什么都没留下…
展开
-
对医疗数据进行分词的尝试(2)
通过对不同分词器以及建立用户和停用词字典的尝试,发现如果想要将所需要的词全部提取出来,必须建立非常完备的字典,但是,这个字典的建立需要耗时耗力,考虑到时间和人力问题,这个选择只能暂时靠边边了。因此,基于hanlp的词性以及依存句法来对医疗数据进行分词,从而提取其中的相关术语:第一步是基于词性,对其中的部分词性进行剔除,并保留一些词性组合:def extract_hanlp(text)...原创 2020-03-10 14:33:40 · 1245 阅读 · 0 评论 -
对文本相似性的尝试二三事
通过查看已有模型可以看出,已经将出现频率小于5次的词语进行了剔除因此,在放入实际数据进行计算相似度的时候,很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候,可以选择word2vec的增量训练,也可以选择对输出结果手动增量训练code:model_test.build_vocab(sentences_cut,update=True) #update = True ...原创 2020-01-17 14:58:47 · 173 阅读 · 0 评论 -
对医疗数据进行分词的尝试(1)
最近 手上拿到一些关于医疗的数据来进行分词,期望得到的结果是将药品,病症(包含'前期','中期','是否转移'等字样)作为关键词提取。首先尝试使用了常见的jieba分词,但是对于药品名称和病症并不能分出来,比如奥硝唑分散片转移性胰腺癌 等类似名词通过查找资料使用pkuseg进行分词,并且调用它自带的 medicine模型segcut = pkuseg.pkuseg(model_na...原创 2020-01-14 13:42:18 · 1782 阅读 · 2 评论 -
谷歌大规模机器学习:模型训练、特征工程和算法选择ppt
什么是机器学习(ML)?从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。ML 的类型:监督学习;无监督学习;半监督学习;……监督学习:用于训练的输入数据有标记。分类(学习决策边界)。 示例:文本/图像/视频分类,垃圾邮件检测等回归(学习预测连续值)。 示例:预测房价,预转载 2017-03-25 16:51:31 · 2749 阅读 · 0 评论 -
机器学习VS深度学习的区别
机器学习和深度学习简介 机器学习 Tom Mitchell 关于机器学习的定义被广泛引用,如下所示: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善,那么我们称这个计算机程序在从经验E学习。 “A computer program is said to learn from experience E with re转载 2017-05-30 08:54:46 · 3516 阅读 · 0 评论 -
论文总结1:关于图结构优化的无监督特征选择
摘要因为无标签和高维数据的不断增长,无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵,所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音,无法完全依赖于相似性矩阵。因此,本文提出一种无监督特征选择的方法能够有效选择特征,同时我们构造的相似性矩阵,能够从数据中获得更精确的有用信息。相关工作现有方法的问题: 不可靠的相似矩阵原创 2017-06-10 15:30:02 · 987 阅读 · 1 评论 -
深度学习笔记1
第二章 线性代数数学这块,对机器学习和深度学习还是很必要的,不说很深入的理解,至少需要清楚一些基础知识。 基础概念:Ø 标量:单个数字(小写英文字母表示)Ø 向量:一列数字(小写英文字母加粗表示)Ø 矩阵:二维数组(大写英文字母加粗表示)Ø 张量:若干维度数组(大写英文字母加粗黑体表示)Ø 转置:矩阵的镜像翻转 Ø 矩阵乘积:AB 需维度对应Ø 矩阵点乘:AB 需维度对应Ø 向...原创 2018-05-30 10:56:03 · 270 阅读 · 0 评论