isbndyy-CSDN博客

原创对医疗数据进行分词的尝试（2）

通过对不同分词器以及建立用户和停用词字典的尝试，发现如果想要将所需要的词全部提取出来，必须建立非常完备的字典，但是，这个字典的建立需要耗时耗力，考虑到时间和人力问题，这个选择只能暂时靠边边了。因此，基于hanlp的词性以及依存句法来对医疗数据进行分词，从而提取其中的相关术语：第一步是基于词性，对其中的部分词性进行剔除，并保留一些词性组合：def extract_hanlp(text)...

2020-03-10 14:33:40 1282

原创对文本相似性的尝试二三事

通过查看已有模型可以看出，已经将出现频率小于5次的词语进行了剔除因此，在放入实际数据进行计算相似度的时候，很多文本在语料库里面都是没有的这就造成了结果的缺失这种时候，可以选择word2vec的增量训练，也可以选择对输出结果手动增量训练code：model_test.build_vocab(sentences_cut,update=True) #update = True ...

2020-01-17 14:58:47 181

原创对医疗数据进行分词的尝试（1）

最近手上拿到一些关于医疗的数据来进行分词，期望得到的结果是将药品，病症（包含'前期','中期','是否转移'等字样）作为关键词提取。首先尝试使用了常见的jieba分词，但是对于药品名称和病症并不能分出来，比如奥硝唑分散片转移性胰腺癌等类似名词通过查找资料使用pkuseg进行分词，并且调用它自带的 medicine模型segcut = pkuseg.pkuseg(model_na...

2020-01-14 13:42:18 1877 2

###01.01_计算机基础知识(计算机概述)(了解)* A:什么是计算机?计算机在生活中的应用举例 * 计算机（Computer）全称：电子计算机，俗称电脑。是一种能够按照程序运行，自动、高速处理海量数据的现代化智能电子设备。由硬件和软件所组成，没有安装任何软件的计算机称为裸机。常见的形式有台式计算机、笔记本计算机、大型计算机等。 * 应用举例 * 1：科学计算 * 2、数据处理 * 3、...

2018-06-20 10:59:12 238

原创深度学习笔记1

第二章线性代数数学这块，对机器学习和深度学习还是很必要的，不说很深入的理解，至少需要清楚一些基础知识。基础概念：Ø 标量：单个数字（小写英文字母表示）Ø 向量：一列数字（小写英文字母加粗表示）Ø 矩阵：二维数组（大写英文字母加粗表示）Ø 张量：若干维度数组（大写英文字母加粗黑体表示）Ø 转置：矩阵的镜像翻转 Ø 矩阵乘积：AB 需维度对应Ø 矩阵点乘：AB 需维度对应Ø 向...

2018-05-30 10:56:03 286

原创卷积神经网络介绍

在深度学习出现之前，我们必须借助SIFT，HOG等算法提取具有良好区分性的特征，再集合SVM等机器学习算法进行图像识别。 SIFT对一定程度内的缩放、平移、旋转、视角改变、亮度调整等畸变，都具有不变性。CNN作为一个深度学习架构被提出的最初诉求，是降低对图像数据预处理的要求，以及避免复杂可以的特征工程。CNN可以直接使用图像的原始像素作为输入，而不必使用SIFT等算法提取特征，减轻了使

2017-06-12 14:14:15 330

原创论文总结1：关于图结构优化的无监督特征选择

摘要因为无标签和高维数据的不断增长，无监督特征选择成为了一个重要且具有挑战的问题在机器学习当中。同时无监督学习方法要求构造相似性矩阵，所以使得特征选择依赖于结构的学习。但是现实世界中的数据包含很多噪音，无法完全依赖于相似性矩阵。因此，本文提出一种无监督特征选择的方法能够有效选择特征，同时我们构造的相似性矩阵，能够从数据中获得更精确的有用信息。相关工作现有方法的问题：不可靠的相似矩阵

2017-06-10 15:30:02 1012 1

转载虚拟机下安装tensorflow

参考： http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/os_setup.htmlAnaconda安装anaconda可以从其官网下载，但是速度比较慢。清华大学提供了镜像，从这个镜像下载速度很快，地址： https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 直接从上

2017-06-05 11:20:49 659

转载机器学习VS深度学习的区别

机器学习和深度学习简介　　机器学习　　Tom Mitchell 关于机器学习的定义被广泛引用，如下所示：　　对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而不断自我完善，那么我们称这个计算机程序在从经验E学习。　　“A computer program is said to learn from experience E with re

2017-05-30 08:54:46 3532

原创利用Python进行数据分析笔记4

MovieLens 1M数据集GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据（风格类型和年代）以及关于用户的人口统计学数据（年龄、邮编、性别和职业等）。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条

2017-03-28 13:32:04 597

原创利用Python进行数据分析笔记3

用pandas对时区进行计数DataFrame是pandas中最重要的数据结构，它用于将数据表示为一个表格。从一组原始记录中创建DataFrame是很简单的：from pandas importDataFrame,Seriesimport pandas aspd;import numpyas npframe = DataFrame(records)print fra

2017-03-27 11:44:51 365

原创利用Python进行数据分析——笔记2

用纯Python代码对时区进行计数（注：原来使用pylab输入代码，不太方便，就换成了Pycharm编辑器）假设我们想要知道该数据集中最常出现的是哪个时区（即tz字段），得到答案的办法有很多。import jsonpath ='G:/python/pydata-book-master/ch02/1.txt'records=[json.loads(line) forline

2017-03-26 15:18:36 363

转载谷歌大规模机器学习：模型训练、特征工程和算法选择ppt

什么是机器学习（ML）？从概念上讲：给定（训练）数据，发现一些潜在的模式并将这个模式应用于新数据。ML 的类型：监督学习；无监督学习；半监督学习；……监督学习：用于训练的输入数据有标记。分类（学习决策边界）。示例：文本/图像/视频分类，垃圾邮件检测等回归（学习预测连续值）。示例：预测房价，预

2017-03-25 16:51:31 2802

原创利用Python进行数据分析笔记1

第二章引言来自bit.ly的1.usa.gov数据（注：这里的代码是在pylab中写的，在GUI中写的结果是一样的。关于路径问题，一开始卡住了，后来发现是自己的问题，没有把路径写全，格式也不正确。）以每小时快照为例，文件中各行的格式为JSON（即JavaScript Object Notation，这是一种常用的Web数据格式）。例如如果我们只读取某个文件的第一行，那么你所看到的结果

2017-03-25 16:46:20 514