机器学习_智商25的憨憨的博客-CSDN博客

机器学习

关注

文章平均质量分 69

关注数：文章数：16 文章阅读量：92715 文章收藏量：490

作者: 智商25的憨憨

这个作者很懒，什么都没留下…

展开

Cognitive Graph for Multi-Hop Reading Comprehension at Scale(ACL2019) 阅读笔记及代码解析

1.摘要提出了一个新的CogQA框架来解决web文档中的多跳问题。该框架以认知科学中的双过程理论为基础，通过协调隐式提取模块（系统1）和显式推理模块（系统2），在迭代过程中逐步构建认知图。在给出准确答案的同时，我们的框架还提供了可解释的推理路径。具体地说，我们的1基于BERT和图形神经网络（GNN）的实现可以有效地处理HotpotQA-fullwiki数据集中的数百万个多跳推理问题文档2.研究背景假设你手边有一个维基百科的搜索引擎，可以用来获取实体对应的文本段落，那么如何来回答下面这个复杂的问题

原创 2020-07-25 21:09:18 · 436 阅读 · 0 评论
Sklearn 中 OneHotEncoder 解析

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。from sklearn.preprocessing import OneHotEncode参数：OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘numpy.float.

原创 2020-06-23 21:36:29 · 3786 阅读 · 0 评论
sklearn实现k-means聚类算法（气温数据集）matplotlib可视化

只是做个测试，最终聚类出来的信息实际应用意义不大。大家可以用sklearn中的兰花数据集进行测试，。我的数据集样式如下：import numpy as npfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltimport pandas as pdx_sky_train = pd.read_csv('datadatadata1.csv',usecols = [2,3],header=None)#将读取的.

原创 2020-06-13 13:50:15 · 3258 阅读 · 1 评论
sklearn逻辑回归实现乳腺癌数据集二分类预测

#逻辑回归实现之前的乳腺癌数据集分类预测from sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sklearn.linear_model import LogisticRegressioncancer =datasets.load_breast_cancer()cancer_X=cancer.dataprint(cancer_X.shape)cancer_y=cancer.t.

原创 2020-06-12 21:41:47 · 4537 阅读 · 0 评论
数据集的预处理（词替换、多余符号与空格正则化去除）——读取json数据集以及预处理之后再生成json文件的代码

数据集较为庞大，这里只做一个示例import codecsimport reimport jsonwith open('train_pub.json','rb') as f: datatrain = json.load(f)# 数据预处理# 预处理名字def precessname(name): name = name.lower().replace(' ', '_') name = name.replace('.', '_') name = name.

原创 2020-06-05 20:45:32 · 623 阅读 · 0 评论
TF-IDF算法详解及sklearn代码实现

目录1.基本介绍（1）TF（词频 Term Frequency）（2）IDF（逆向文件频率 Inverse Document Frequency）（3）TF-IDF=TF*IDF代码实现：（1）sklearn代码实现（2）Jieba实现TF-IDF算法1.基本介绍定义：TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频，IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常.

原创 2020-06-04 15:01:54 · 8230 阅读 · 1 评论
聚类算法之——DBSCAN密度聚类详解及sklearn包中的DBSCAN算法代码实现

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。西瓜书上对它的解释：核心对象定义：密度直达定义：密度可达：密度相连：上面几种关系的直观图示如下：如...

原创 2020-06-03 21:57:31 · 3096 阅读 · 0 评论
《深度学习》第六章学习深度前馈网络（Deep Feedforward Networks）（待完善）

https://www.zybuluo.com/hanbingtao/note/433855

原创 2020-06-01 10:59:29 · 1619 阅读 · 0 评论
Sklearn到底是什么？

更多详细代码关注sklearn中文官方文档：https://www.cntofu.com/book/170/index.html1.概念Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上，里面的 API 的设计非常好，所有对象的接口简单，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Re

原创 2020-06-01 10:58:21 · 34203 阅读 · 2 评论
聚类算法 and k-Means聚类算法（西瓜书第9章）

1.聚类任务聚类就是对大量未知标注的数据集，按照数据的内在相似性将数据集划分为多个类别（在聚类算法中称为簇），使类别内的数据相似度高，二类别间的数据相似度低。聚类算法是无监督学习（unsuperivised learning），训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来解释数据的内在性质及规律，为进一步的数据分析提供基础。聚类算法师徒将数据集中的样本划分为若干个通常是不相关的子集，每个子集之间称为一个“簇”（cluster），通过这样的划分，每一个簇可能对应于一些潜在的概念（类别

原创 2020-05-28 17:34:07 · 2945 阅读 · 0 评论
决策树可视化工具——Graphviz安装（Windows下）

1.安装下载地址：https://graphviz.gitlab.io/_pages/Download/Download_windows.html下载过程较为漫长，下载成功后，双击傻瓜式安装安装成功后，打开文件夹并将其bin路径添加至环境变量dooo在命令行界面验证：出现上图即安装成功。2.使用作为一名小白，刚安装好根本不会使用，在网上找了一些教程感觉也不是很清晰，这边自己琢磨了一下最最最基本的使用：首先双击打开安装好的软件，输入以下代码，并且保存为.

原创 2020-05-12 23:33:31 · 2108 阅读 · 0 评论
自己尝试使用简单数据集实现决策树代码——《机器学习实战》

记录学习过程，每天学会一点点，早日玩转机器学习......（手动呵呵微笑）。1.数据集部分上图为所给的海洋生物数据，则以1代表可以付出水面、有脚蹼；0代表无法浮出水面、无脚蹼；yes为属于鱼类、no为不属于鱼类则创建数据集的代码可以表示为：from math import log"""加载得到简单的鉴定鱼的数据集"""def createDataSet(): #根据所给的数据表构造数据集 dataSet = [[1,1,'yes'], ..

原创 2020-05-20 00:40:22 · 1275 阅读 · 1 评论
作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

参考链接：http://docode.techyoung.cn/breast_cancer_wisconsin.html乳腺癌的早期诊断意义重大！数据集：威斯康辛大学关于乳腺癌诊断数据集链接：https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29数据集共有30个特征，前10个特征是样本图像中细胞核特征值的平均值：第11到第20个特征为样本图像中细胞核特征值的标准差，反映的是在

原创 2020-05-13 23:52:21 · 15742 阅读 · 7 评论
Python常见数据类型

与大多数语言一样，Python有许多基本类型，包括整数、浮点数、布尔值和字符串。这些数据类型的行为方式与其他编程语言相似整数：整数和浮点数的工作方式与其他语言相同：x = 3print(type(x)) # Prints "<class 'int'>"print(x) # Prints "3"print(x + 1) # Addition; prints "4"print(x - 1) # Subtraction; prints "2"print(x *

原创 2020-05-09 18:02:50 · 144 阅读 · 0 评论
经典机器学习算法回顾

有监督学习算法：感知机、贝叶斯分类、决策树有监督学习过程1.学习过程每一个有监督的样本（有监督样本特征本身Xi、每一个样本对应着有一个标记Yi）都有一个标记样本的特征向量、标记样本的标记。把这个（Xi，Yi）都输入到学习模型中，做种输出的是模型本身，而这个模型必须要使用有标记样本对其进行简单的Evaluation（评估），此时的评估我们自己是知道答案的。在确定了模型之后，需要对其进行test ,而这些test data，虽然给定了只写数据，但是我们并不知道其标记，最终通过上...

原创 2020-05-09 13:06:13 · 285 阅读 · 0 评论
感知机（Perceptron）无法解决异或（XOR）问题的原因

目录1.异或问题2.感知机（Perceptron）感知机（Perceptron）为什么无法解决异或（XOR）问题呢？1.异或问题首先我们来分析一下什么是异或问题。通俗得说，这个是概念性的问题，搞懂概念即，相同的就是0，不同的就是1，比如：1000异或1000，结果就是0000，1000异或1001，结果就是0001。可用下图表示：即异或问题可以分为根据输出可以分为两类，...

原创 2020-05-08 09:59:04 · 10440 阅读 · 0 评论

机器学习

作者: 智商25的憨憨

Cognitive Graph for Multi-Hop Reading Comprehension at Scale(ACL2019) 阅读笔记及代码解析

Sklearn 中 OneHotEncoder 解析

sklearn实现k-means聚类算法（气温数据集）matplotlib可视化

sklearn逻辑回归实现乳腺癌数据集二分类预测

数据集的预处理（词替换、多余符号与空格正则化去除）——读取json数据集以及预处理之后再生成json文件 的代码

TF-IDF算法详解及sklearn代码实现

聚类算法之——DBSCAN密度聚类详解及sklearn包中的DBSCAN算法代码实现

《深度学习》第六章学习 深度前馈网络（Deep Feedforward Networks）（待完善）

Sklearn到底是什么？

聚类算法 and k-Means聚类算法（西瓜书第9章）

决策树可视化工具——Graphviz安装（Windows下）

自己尝试使用简单数据集实现决策树 代码——《机器学习实战》

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据， 采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类

Python常见数据类型

经典机器学习算法回顾

感知机（Perceptron）无法解决异或（XOR）问题的原因

数据集的预处理（词替换、多余符号与空格正则化去除）——读取json数据集以及预处理之后再生成json文件的代码

《深度学习》第六章学习深度前馈网络（Deep Feedforward Networks）（待完善）

自己尝试使用简单数据集实现决策树代码——《机器学习实战》

作业一（part1）：使用威斯康辛大学关于乳腺癌诊断数据集的相关数据，采用决策树算法（或随机森林）分析乳腺癌诊断数据集，推断肿瘤发病可能情况，然后用5分类