机器学习
文章平均质量分 88
CCH²¹
想要闪烁就对自己更严格。
展开
-
【医学图像分析与理解课内实验】医学图像分类实验
实验目的任意选择分类算法,实现乳腺癌分类。要求所有分类算法均自己实现。下图是一个良性样本:下图是一个恶性样本:实验过程由于能力和精力有限,我并没有选用CNN模型作为分类器。一方面是因为不借助PyTorch框架实现CNN对我来说过于困难,另一方面是因为本次课内实验提供的数据量太小,我觉得没有必要通过卷积神经网络来进行分类,故本次实验选用了相对简单的全连接神经网络实现。①数据集的读取本次实验的数据集正类样本和负类样本存放于两个不同的目录,因此可以调用Python的os模块,列举出目录中的所原创 2022-05-06 23:14:14 · 1706 阅读 · 1 评论 -
K-Means聚类算法实践(基于Python实现)
目录K-Means聚类算法原理数据集数据预处理数据清洗属性规约数据变换K-Means算法实现对数据集进行聚类、可视化以及分析参考文献K-Means聚类算法原理给定样本集 D={x1,x2,…,xm}D=\{\bm x_{1},\bm x_{2},\ldots,\bm x_m\}D={x1,x2,…,xm},K-Means算法针对聚类所得簇划分 C={C1,C2,…,Ck}C=\{C_1,C_2,\ldots,C_k\}C={C1,C2,…,Ck} 最小化平方误差E=∑i=1k∑x∈Ci∣∣原创 2021-11-14 12:27:51 · 3377 阅读 · 0 评论 -
【PyTorch】Kaggle深度学习实战之Skin Cancer MNIST: HAM10000
目录数据集概述DescriptionOverviewOriginal Data SourceFrom Authors初次尝试利用`imblearn`库处理不平衡样本第二次尝试`my_dataset.py``train.py`数据集概述本次实战练习的数据集来自Kaggle的Skin Cancer MNIST: HAM10000。官方的Description如下:DescriptionOverviewAnother more interesting than digit classification原创 2021-05-16 02:36:53 · 4604 阅读 · 15 评论 -
【PyTorch】基于自然语言处理和长短期记忆网络的“AI诗人”
目录长短期记忆网络 (LSTM)自然语言处理之词嵌入 (Word Embedding)get_data.py - 数据预处理model.py - 定义神经网络模型train.py - 训练神经网络一些比较好的AI生成诗句长短期记忆网络 (LSTM)长短期记忆网络 (Long Short-Term Memory, LSTM) 是循环神经网络 (Recurrent Neural Network, RNN) 的一种变体。RNN存在梯度消失 (vanishing gradient) 或梯度爆炸 (explodi原创 2021-05-06 17:05:07 · 456 阅读 · 3 评论 -
【PyTorch】用神经网络实现FizzBuzz问题
目录问题描述解决问题的思路model.py - 模型构建fizzbuzz.py - 针对数字的处理train.py - 模型训练test.py - 选取最优模型进行测试问题描述相信大家对FizzBuzz问题都不陌生。给定整数nnn,按照如下规则打印从startstartstart到start+nstart+nstart+n的每个数:如果这个数能被3整除,打印fizz;如果这个数能被5整除,打印buzz;如果这个数能同时被3和5整除,打印fizzbuzz;如果这个数既不能被3整除也不能被5整除原创 2021-05-02 19:58:57 · 754 阅读 · 2 评论 -
基于NumPy实现ID3决策树算法
ID3决策树算法 决策树 (decision tree) 是一类常见的机器学习方法,它基于树结构来进行决策,这恰是人类在面临决策问题时一种很自然的处理机制。著名的决策树学习算法包括ID3、C4.5、CART等,ID3决策树以信息增益 (information gain) 为准则来选择划分属性,C4.5决策树以增益率 (gain ratio) 为准则来选择划分属性,而CART决策树使用基尼指数 (Gini index) 来选择划分属性。下面主要介绍ID3决策树算法。 决策树学习的目的是为了产生一棵泛化原创 2021-01-22 09:24:29 · 775 阅读 · 2 评论 -
基于NumPy和Matplotlib实现k-means聚类及可视化
k均值算法 k均值 (k-means) 算法是一种原型聚类算法(亦称“基于原型的聚类” (prototype-based clustering))。通常情况下,原型聚类算法先对原型进行初始化,然后对原型进行迭代更新求解。 给定样本集D={x1,x2,...,xm}D=\{\bm{x}_1,\bm{x}_2,...,\bm{x}_m\}D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}C=\{C_1,C_2,...,C_k\}C={C1,C2,..原创 2021-01-21 16:58:17 · 2709 阅读 · 4 评论 -
大数据与人工智能实验室机器学习组20201008测试题解析
一、选择题1、线性表采用链式存储时,结点的存储地址( )A. 必须是不连续的B. 连续与否均可C. 必须是连续的D. 和头结点的存储地址相连续【答案:B】2、下列属于聚类算法的是( )A. Decision TreeB. Support Vector MachineC. K-MeansD. Singular Value Decomposition【答案:C】【解析:机器学习算法一般可划分为监督学习、无监督学习和强化学习三大类,监督学习可以大致分为分类和回归两类,无监督学习可以大原创 2020-10-10 15:32:09 · 2625 阅读 · 2 评论 -
初步学习k-NN算法以及使用GridSearchCV进行调参
k最近邻算法 (k-NN) k最近邻 (k-Nearst Neighbor, k-NN) 算法是一种比较简单易懂的机器学习算法,1968年由Cover和Hart提出,常应用于字符识别、文本分类、图像识别等领域。该算法的思想是:一个样本与数据集中的k个样本最相似,如果这k个样本中的大多数属于某一个类别,则该样本也属于这个类别。 在sklearn库中,k-NN包含在sklearn.neighbors中,有k最近邻分类KNeighborsClassifier和k最近邻回归KNeighborsRegress原创 2020-08-13 09:48:19 · 1381 阅读 · 0 评论 -
【机器学习实例】Titanic生存预测
数据集概述 如下图所示,Titanic数据集共包含有三个csv文件,其中train.csv是训练集,test.csv是待预测的测试集,gender_submission.csv是测试集的真实结果。数据描述import pandas as pdfrom IPython.display import display# 查看训练集和测试集training_set = pd.read_csv('train.csv')test_set = pd.read_csv('test.csv')disp原创 2020-08-12 11:17:29 · 1597 阅读 · 1 评论 -
实验室暑假学习第四周任务总结——机器学习模型初体验
写在前面 完成前三周的任务之后,我们小组六个人都各自整理出了一份城市租房信息数据集。筛查并删除掉数据异常的信息之后,最终得到了一份含有中国六个城市(天津、咸阳、西安、宝鸡、深圳、北京)共9080条数据的总数据集。 接下来的任务是使用sklearn库中提供的模型,对房价进行预估。这里我选择了k-NN、岭回归、线性回归、决策树、随机森林五种模型。k-NN 代码如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-import numpy as原创 2020-08-08 00:11:59 · 299 阅读 · 0 评论 -
TensorFlow 2.0.0 (CPU-only & GPU support) 安装及配置教程
写在前面操作系统平台:Windows 10 当你看到这里的时候,请确保你的电脑已经安装了Anaconda(或Miniconda)并且已经配置好环境变量。如果还没有安装Anaconda(或Miniconda),戳我!安装及配置TensorFlow 2.0.0 (CPU-only)1. 新建TensorFlow 2.0.0 CPU环境 在开始菜单中找到Anaconda 3文件夹,打开其中的Anaconda Prompt。 在Anaconda Prompt中输入下面的命令新建TensorF原创 2020-07-30 17:39:14 · 4211 阅读 · 0 评论 -
实验室暑假学习第三周任务总结——文本信息数字化
任务需求 上周我们对爬取到的数据做了一些简单的处理,本周的任务就是将其中的文本信息数字化表示。Python源代码 本周的任务,大部分数字化都可以通过字典来解决,只有租期一列比较特殊,有的房源数据的租期是以年为单位,有的是以月为单位,还有的是暂无数据。按照小组给出的需求,首先要取最低租期,把以年为单位的数据都转换成以月为单位,计算出均值,再进行二次处理,将暂无数据的信息替换成均值。这里可以使用正则表达式来解决。#!/usr/bin/env python3# -*- coding: utf-8原创 2020-07-28 22:39:52 · 596 阅读 · 0 评论 -
实验室暑假学习第二周任务总结——简单的数据处理
任务需求 上周我们已经从贝壳租房网爬取了某个城市(我选择的是天津)的房源信息数据,并保存在了CSV文件中,如下图所示: 本周的任务是对这个数据集进行一些处理,需求如下: 1. 去除房源编号一列; 2. 所在区县一列,只保留区县名,不保留“区”字样; 3. 面积一列只保留数字,去除单位; 4. 朝向一列只保留第一个方位; 5. 月租一列只保留数字,去除单位; 6. 室、厅、卫三列只保留数字,去除单位; 7. 入住一列如果是具体日期,则修改为yyyymmdd格式,如2020原创 2020-07-22 09:05:20 · 376 阅读 · 0 评论 -
实验室暑假学习第一周任务总结——爬虫
任务需求 在贝壳租房网站(这里我选择的城市是天津)爬取50页房源信息,包括房源编号、所在城市、所在区县、所在街道或地区、小区名称、面积、朝向、月租、计费方式、室、厅、卫、入住、租期、看房、所在楼层、总楼层、电梯、车位、用水、用电、燃气、采暖等信息。将信息写入CSV文件保存,以备后续任务使用。对任务需求的分析 这是一个关于爬虫的任务,那么一些爬虫常用的模块(如requests, bs4等)是必不可少的。 需求中有提到“爬取50页数据”,看到这里很自然地就会想到使用循环来解决。打开贝壳租房网,翻页原创 2020-07-14 23:57:44 · 542 阅读 · 0 评论