![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 69
智商25的憨憨
这个作者很懒,什么都没留下…
展开
-
Cognitive Graph for Multi-Hop Reading Comprehension at Scale(ACL2019) 阅读笔记及代码解析
1.摘要提出了一个新的CogQA框架来解决web文档中的多跳问题。该框架以认知科学中的双过程理论为基础,通过协调隐式提取模块(系统1)和显式推理模块(系统2),在迭代过程中逐步构建认知图。在给出准确答案的同时,我们的框架还提供了可解释的推理路径。具体地说,我们的1基于BERT和图形神经网络(GNN)的实现可以有效地处理HotpotQA-fullwiki数据集中的数百万个多跳推理问题文档2.研究背景假设你手边有一个维基百科的搜索引擎,可以用来获取实体对应的文本段落,那么如何来回答下面这个复杂的问题原创 2020-07-25 21:09:18 · 429 阅读 · 0 评论 -
Sklearn 中 OneHotEncoder 解析
将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。from sklearn.preprocessing import OneHotEncode参数:OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘numpy.float.原创 2020-06-23 21:36:29 · 3771 阅读 · 0 评论 -
sklearn实现k-means聚类算法(气温数据集)matplotlib可视化
只是做个测试,最终聚类出来的信息实际应用意义不大。大家可以用sklearn中的兰花数据集进行测试,。我的数据集样式如下:import numpy as npfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport pandas as pdx_sky_train = pd.read_csv('datadatadata1.csv',usecols = [2,3],header=None)#将读取的.原创 2020-06-13 13:50:15 · 3231 阅读 · 1 评论 -
sklearn逻辑回归实现乳腺癌数据集二分类预测
#逻辑回归实现之前的乳腺癌数据集分类预测from sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sklearn.linear_model import LogisticRegressioncancer =datasets.load_breast_cancer()cancer_X=cancer.dataprint(cancer_X.shape)cancer_y=cancer.t.原创 2020-06-12 21:41:47 · 4528 阅读 · 0 评论 -
数据集的预处理(词替换、多余符号与空格正则化去除)——读取json数据集以及预处理之后再生成json文件 的代码
数据集较为庞大 ,这里只做一个示例import codecsimport reimport jsonwith open('train_pub.json','rb') as f: datatrain = json.load(f)# 数据预处理# 预处理名字def precessname(name): name = name.lower().replace(' ', '_') name = name.replace('.', '_') name = name.原创 2020-06-05 20:45:32 · 613 阅读 · 0 评论 -
TF-IDF算法详解及sklearn代码实现
目录1.基本介绍(1)TF(词频 Term Frequency)(2)IDF(逆向文件频率 Inverse Document Frequency)(3)TF-IDF=TF*IDF代码实现:(1)sklearn代码实现(2)Jieba实现TF-IDF算法1.基本介绍定义:TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常.原创 2020-06-04 15:01:54 · 8166 阅读 · 1 评论 -
聚类算法之——DBSCAN密度聚类详解及sklearn包中的DBSCAN算法代码实现
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。西瓜书上对它的解释:核心对象定义:密度直达定义:密度可达:密度相连:上面几种关系的直观图示如下:如...原创 2020-06-03 21:57:31 · 3082 阅读 · 0 评论 -
《深度学习》第六章学习 深度前馈网络(Deep Feedforward Networks)(待完善)
https://www.zybuluo.com/hanbingtao/note/433855原创 2020-06-01 10:59:29 · 1599 阅读 · 0 评论 -
Sklearn到底是什么?
更多详细代码关注sklearn中文官方文档:https://www.cntofu.com/book/170/index.html1.概念Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具,是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Re原创 2020-06-01 10:58:21 · 34121 阅读 · 2 评论 -
聚类算法 and k-Means聚类算法(西瓜书第9章)
1.聚类任务聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别(在聚类算法中称为簇),使类别内的数据相似度高,二类别间的数据相似度低。聚类算法是无监督学习(unsuperivised learning),训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来解释数据的内在性质及规律,为进一步的数据分析提供基础。聚类算法师徒将数据集中的样本划分为若干个通常是不相关的子集,每个子集之间称为一个“簇”(cluster),通过这样的划分,每一个簇可能对应于一些潜在的概念(类别原创 2020-05-28 17:34:07 · 2935 阅读 · 0 评论 -
决策树可视化工具——Graphviz安装(Windows下)
1.安装下载地址:https://graphviz.gitlab.io/_pages/Download/Download_windows.html下载过程较为漫长,下载成功后,双击傻瓜式安装安装成功后,打开文件夹并将其bin路径添加至环境变量dooo在命令行界面验证:出现上图即安装成功。2.使用作为一名小白,刚安装好根本不会使用,在网上找了一些教程感觉也不是很清晰,这边自己琢磨了一下最最最基本的使用:首先双击打开安装好的软件,输入以下代码,并且保存为.原创 2020-05-12 23:33:31 · 2087 阅读 · 0 评论 -
自己尝试使用简单数据集实现决策树 代码——《机器学习实战》
记录学习过程,每天学会一点点,早日玩转机器学习......(手动呵呵微笑)。1.数据集部分上图为所给的海洋生物数据,则以1代表可以付出水面、有脚蹼;0代表无法浮出水面、无脚蹼;yes为属于鱼类、no为不属于鱼类则创建数据集的代码可以表示为:from math import log"""加载得到简单的鉴定鱼的数据集"""def createDataSet(): #根据所给的数据表构造数据集 dataSet = [[1,1,'yes'], ..原创 2020-05-20 00:40:22 · 1268 阅读 · 1 评论 -
作业一(part1):使用威斯康辛大学关于乳腺癌诊断数据集的相关数据, 采用决策树算法(或随机森林)分析乳腺癌诊断数据集,推断肿瘤发病可能情况,然后用5分类
参考链接:http://docode.techyoung.cn/breast_cancer_wisconsin.html乳腺癌的早期诊断意义重大!数据集:威斯康辛大学关于乳腺癌诊断数据集链接:https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29数据集共有30个特征,前10个特征是样本图像中细胞核特征值的平均值:第11到第20个特征为样本图像中细胞核特征值的标准差,反映的是在原创 2020-05-13 23:52:21 · 14854 阅读 · 7 评论 -
Python常见数据类型
与大多数语言一样,Python有许多基本类型,包括整数、浮点数、布尔值和字符串。这些数据类型的行为方式与其他编程语言相似整数:整数和浮点数的工作方式与其他语言相同:x = 3print(type(x)) # Prints "<class 'int'>"print(x) # Prints "3"print(x + 1) # Addition; prints "4"print(x - 1) # Subtraction; prints "2"print(x *原创 2020-05-09 18:02:50 · 137 阅读 · 0 评论 -
经典机器学习算法回顾
有监督学习算法:感知机、贝叶斯分类、决策树有监督学习过程1.学习过程每一个有监督的样本(有监督样本特征本身Xi、每一个样本对应着有一个标记Yi)都有一个标记样本的特征向量、标记样本的标记。把这个(Xi,Yi)都输入到学习模型中,做种输出的是模型本身,而这个模型必须要使用有标记样本对其进行简单的Evaluation(评估),此时的评估我们自己是知道答案的。在确定了模型之后,需要对其进行test ,而这些test data,虽然给定了只写数据,但是我们并不知道其标记,最终通过上...原创 2020-05-09 13:06:13 · 275 阅读 · 0 评论 -
感知机(Perceptron)无法解决异或(XOR)问题的原因
目录1.异或问题2.感知机(Perceptron)感知机(Perceptron)为什么无法解决异或(XOR)问题呢?1.异或问题首先我们来分析一下什么是异或问题。通俗得说,这个是概念性的问题,搞懂概念即,相同的就是0,不同的就是1,比如:1000异或1000,结果就是0000,1000异或1001,结果就是0001。可用下图表示:即异或问题可以分为根据输出可以分为两类,...原创 2020-05-08 09:59:04 · 10330 阅读 · 0 评论