![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 68
Wency(王斯-CUEB)
博士阶段的学术小白,致力于编程技能与学术应用的提升。本博客记录Python、R、Matlab等语言学习心得,分享编程BUG解决策略及电脑使用技巧,助力学术研究。期待与您共同进步。
展开
-
分享一个无损AI图片放大【非网页,PC端】
在学术写作、PPT制作等,对一些模糊的图片进行高清放大是常见的操作除了一些常见网页转高清的方便工具,但是效果不太好,而且可能还有收费。今天分享一些PC端的转高清软件。原创 2024-07-16 01:06:08 · 204 阅读 · 0 评论 -
基于R语言实现的beta二项回归模型【理解与实现】
本实验,创建一组使用二项分布模拟的数据(不带额外的随机性),和另一组使用Beta二项分布模拟的数据(引入了随机成功概率 p,从而增加了数据的离散性。现在假设我们站在上帝视角,有两组不知道分布的数据。原创 2024-04-14 16:27:51 · 1286 阅读 · 0 评论 -
基于Python实现的聚类算法【K-means&系统聚类&DBSCAN】
1.K-means聚类算法过程1.从n个样本数据中随机选取K个对象作为初始的聚类中心2.分别计算每个样本到各个聚类中心的距离,讲对象分配到距离最近的聚类中所有对象分配完毕,重新计算K个聚类的中心与前一次计算的K个聚类中心做比较,如果聚类中心发生变化,转到2,否则转到5当质心不发生变化时,停止并输出结果2. 代码实现# 1.导入数据 Import datasetfrom sklearn import datasetsiris = datasets.load_iris()# 2.模原创 2022-03-23 17:39:06 · 5775 阅读 · 1 评论 -
我的机器学习入门清单及路线
感谢原创:桔了个仔 Datawhale知乎:https://www.zhihu.com/people/huangzhe这是我个人的机器学习入门清单及路线,所以没有像很多收藏夹那样大而全,一来学不完,二来给自己压力。这是个人的路线。算是个人记录,也给大家参考,如有什么不足之处,欢迎指教。前置知识及技能:1、线性代数基础,如果没的话,还是先学了这门课在研究吧,不然会哭的。2、学会python就行了。R也可以用用。3、英语。起码能基本的听和读吧,感觉中文的资料还不够多,很难避免要看很多英文资料。建议转载 2022-03-01 21:41:16 · 197 阅读 · 1 评论 -
《R语言与数据挖掘》⑥-⑦分类与预测建模【分类算法评价】
模型预测效果评价,通常用相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量一般回归型模型评价绝对误差Absolute Error相对误差Relative Error平均相对误差Mean Absolute Error【MAE】均方误差Mean Squared Error【MSE】均方根误差Root Mean Squared Error 【RMSE】一般分类型模型评价TP(True Positives)是指正确的肯定表示正确肯定的分类数;TN(True Negativ原创 2021-12-24 01:08:49 · 718 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-⑥分类与预测建模【其他分类预测算法】
其他分类算法如下LAD模型# lda模型setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机抽70%定义为训练数据集,30%为测试数据集ind <- sample(2, nrow(Data), replace原创 2021-12-24 01:08:59 · 964 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-⑤分类与预测建模【朴素贝叶斯分类】
算法思路:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。naiveBayes()函数# 朴素贝叶斯分类算法setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机原创 2021-12-23 20:57:10 · 757 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-④分类与预测建模【KNN算法】
KNN 算法即K最近邻(k-Nearest Neighbor)分类算法,是一个理论上比较成熟的方法。kknn()函数knn()函数train()函数# KNN算法setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数原创 2021-12-23 20:50:44 · 1437 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-③分类与预测建模【决策树】
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。# BP神经网络setwd("F:\\桌面") # 设置工作空间Data <- read.csv("./test.txt",sep = '\t') # 读入数据Data[, "MN"] <- as.factor(Data[, "MN"]) # 将目标变量转换成因子型set.seed(1234) # 设置随机种子# 数据集随机抽70%定义为训练数据集,30%为测试数据集ind &l原创 2021-12-23 20:42:11 · 288 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-②分类与预测建模【决策树】
决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。常见的三类决策树:C4.5算法在R语言中,实现C4.5决策树建模是非常方便的,实现该算法主要是借助party包中的ctree()函数。# C4.5决策原创 2021-12-23 20:37:28 · 1268 阅读 · 0 评论 -
《R语言与数据挖掘》⑥-①分类与预测建模【回归分析】
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。lm()函数说明lm(formula, data, subset, weights, na.action, method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE, contrasts = NULL, offset, ...)其中, formula指要拟合的模型形式, data是一个数据框,包含用于拟合模型的数原创 2021-12-23 20:03:51 · 1434 阅读 · 0 评论 -
《R语言与数据挖掘》⑦聚类分析建模
书籍:《R语言与数据挖掘》作者:张良均出版社:机械工业出版社ISBN:9787111540526本书由北京华章图文信息有限公司授权杭州云悦读网络有限公司电子版制作与发行版权所有·侵权必究写在前面目前主流的聚类算法主要分为以下几种K-Means K-均值聚类K-Medoids K-中心聚类DBSSCAN Density-based Spatial Clustering of Application with Noise 密度聚类HC Hierarchical Clustering 层原创 2021-12-23 18:10:09 · 763 阅读 · 0 评论 -
蒙特卡洛仿真的基于Python实例
文章原作者:新缸中之脑文章链接:https://www.toutiao.com/i7028498316396839432/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1×tamp=1638613017&app=news_article&utm_source=weixin&utm_medium=toutiao_ios&use_new_style=1&req_id=2.转载 2021-12-04 20:46:52 · 2454 阅读 · 0 评论 -
pandas的数据库操作-筛选数据
我们都知道SQL数据库的语句很简洁,python中的pandas库也很好用,但是如何将两者给关联起来???本文将通过pandas来实现类似于SQL中的【过滤】、【排序】、【关联】、【合并】、【更新】、【删除】等操作。用到的数据集from sklearn.datasets import load_bostonimport pandas as pdboston = load_boston()df = pd.DataFrame(boston.data,columns = boston.feature原创 2021-12-01 13:25:55 · 520 阅读 · 0 评论 -
GWO-KELM和GWO-SVR代码实现
原创 2021-10-12 16:53:01 · 614 阅读 · 1 评论 -
SVR预测电力需求
import pandas as pd from sklearn.svm import SVR# 读取数据data = pd.read_excel(r'F:\桌面\论文831电力预测\所有数据\筛选5变量电力需求预测.xlsx')# 数据归一化\# 数据划分from sklearn.preprocessing import StandardScalerstandardScaler = StandardScaler()X_train = standardScaler.fit_transf原创 2021-09-27 20:51:33 · 473 阅读 · 4 评论 -
【温大机器学习笔记】-⑫关联规则
关联规则概述Association Rules反应的是一个事物与其他事物之间的相互依存性和关联性。典型的购物车分析:试图找出不同物品和产品之间的关联,这些物品和产品可以在一起销售,有助于正确的放置商品。基本名词解释Apriori算法Apriori算法利用频繁项集生成关联规则。它基于频繁项集的子集也必须是频繁项集的概念。频繁项集是支持值大于阈值(support)的项算法流程FP-Growth算法...原创 2021-08-18 13:26:57 · 143 阅读 · 0 评论 -
ML机器学习-PAC降维-应对【高维数据灾难】【案例】
为什么要降维?原因高维机器学习具有大量的特征(变量),这些对机器学习计算有一定的障碍,但是其中的一些特征(变量)可能存在一定的相关性,在保证不损失太多的信息条件下,将特征处理为一组新的变量,达到降低为原始数据的维度。主成分分析PAC主成分分析(PAC)在处理降维是应用最为广泛。思想大量相关变量组成的数据集的维数,同时尽可能保持数据集的方差找到一组新的变量,原来的变量只是它们的线性组合新的变量称为主成分(Principal Component)理解原理:传送门下面使用鸢尾花的内置数据集来原创 2021-08-18 12:50:38 · 1192 阅读 · 0 评论 -
【温大机器学习笔记】-⑪降维
降维概述维数灾难(Curse of Dimensionality):数据维度过大,计算量指数倍增长,同时对于机器学习性能也有所下降,并不是特征越多越好。什么是降维简单来说就是对数据从高维空间映射到低维空间。当然会一定的压缩损失。为什么降维增加数据可读性,利于数据发觉有意义的结构或规律降维的主要作用减少冗余特征,降低数据维度数据可视化这里的数据可视化解释:优缺点:SVD奇异值分解Singular Value Decomposition是在机器学习领域广泛应用的算法,它不光可以用原创 2021-08-16 23:52:05 · 137 阅读 · 0 评论 -
【温大机器学习笔记】-⑩聚类分析
无监督学习概述监督学习:训练集有标签无监督学习:数据没有附带任何标签,主要分为聚类、降维、关联规则、推荐系统聚类的分类和应用K-means聚类关键词:无监督、最普遍、迭代距离度量K-means算法流程选择K个点作为初始质心将每个点指派到最近的质心,形成K个簇对于上一步聚类的结果,进行平均计算,得出该簇的新的聚类中心重复迭代,到质心不发生变化①:②:③:K-means优点K-means的缺点密度聚类和层次聚类密度聚类(Density—Based S原创 2021-08-16 21:42:11 · 96 阅读 · 0 评论 -
【温大机器学习笔记】-⑨支持向量机
支持向量机概述Support Vector Machine SVM 是一类按监督学习(Supervised learning)方式对数据进行二元分类的广义线性分类器(Generalized linear classifier)其决策边界是对学习样本求解的最大编辑超平面(maximum-margin- hyperplane)与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提高了一种更为清晰,更加强大的方式。硬、软间隔硬间隔就是说分类完全正确软间隔是说分类存在一定分类错误线性可分、线性原创 2021-08-16 20:41:38 · 801 阅读 · 2 评论 -
【温大机器学习笔记】-⑧集成学习
集成学习方法概述集成学习方法(Ensemble Method) 集成学习算法本身不算一种单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。Bagging有放回的从训练集中抽取每个基础模型所需要的训练子集,对所有基模型预测的结果进行综合产生最终的预测结果:BoostingBoosting 促进、提升训练结果为阶梯状,基模型按次序一一进行训练(并行运算),基模型的训练集安装某种策略每次都进行一定转化,对所有的基模型预测的结果进行线性综合产生最终的预测结果。StackingS原创 2021-08-13 15:49:36 · 211 阅读 · 0 评论 -
【温大机器学习笔记】-⑦决策树算法
决策树原理【Decision Tree】决策树总体来说是一个树形结构,十分常见的监督学习分类算法。结构是一种自上而下的贪心算法,每一步选择都采取当前状态最好、最优的选择优缺点优点:⚫ 推理过程容易理解,计算简单,可解释性强。⚫ 比较适合处理有缺失属性的样本。⚫ 可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。缺点:⚫ 容易造成过拟合,需要采用剪枝操作。⚫ 忽略了数据之间的相关性。⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值原创 2021-08-08 15:19:45 · 434 阅读 · 0 评论 -
【温大机器学习笔记】-⑥KNN算法
距离度量https://www.cnblogs.com/jimchen1218/p/11504545.html【距离度量详解】欧氏距离Euclidean distance 是最常用的距离定义,公式:简单2维和3维的公式曼哈顿距离Manhattan distance,也称为城市街区距离(city block distance)公式如下:切比雪夫距离Chebyshev distance,公式如下:表示各坐标数值差绝对值的最大值。闵可夫斯基距离Minkowski distance,原创 2021-08-02 15:42:49 · 331 阅读 · 0 评论 -
【温大机器学习笔记】-⑤机器学习实践
数据集划分训练集(Training Set):用于模型训练的数据验证集(Validation Set):也叫作开发集(Dev Set)用来做模型选择(model selection),即做模型的最终优化及确定,用来辅助我们的模型构建测试集(Test Set):为了测试已经训练好的模型的精确度常见划分比例6:2:2或者7:1:2在深度学习中,98:1:1(假设有百万级数据)交叉验证使用训练集训练k个模型用k个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)选取代价函数最小的模原创 2021-08-01 23:41:04 · 344 阅读 · 0 评论 -
【温大机器学习笔记】-④朴素贝叶斯
朴素贝叶斯(Native Bayes)法如其名,它是贝叶斯分类中,最简单也是最常见的分类算法。它是以贝叶斯定理为基础通常要理解这么几个概念**先验概率:**根据以往经验和分析得到的概率,P(Y)P(Y)P(Y)**后验概率:**根据已发生的事件来分析得到的概率,P(Y∣X)P(Y|X)P(Y∣X)**联合概率:**联合概率是在多元的概率分布中,多个随机变量分别满足各自条件的概率,数学符号:P(X,Y)、P(XY)、P(X∩Y)P(X,Y)、P(XY)、P(X \cap Y)P(X,Y)、P(XY原创 2021-07-31 23:56:42 · 288 阅读 · 0 评论 -
【温大机器学习笔记】-③分类
分类人这一辈子都在做分类,比如判断人是否是好人或者坏人,对于某一事物经常会处理成非黑即白。同属于监督学习的分类问题,常常针对的是标签离散型,但是输入的特征(变量)可以是离散或者连续二分类二分类问题在机器学习中较为常见。多分类从实质上讲还是二分类的问题Sigmoid函数我们在学习高等数学的时候,对于这个函数比较熟悉!函数表达形式:σ(z)\sigma(z)σ(z)代表一个常用的逻辑函数(logistic function)图像:这个函数是不可微的由z=wtx+bz=w^tx+原创 2021-07-31 14:41:31 · 100 阅读 · 0 评论 -
【温大机器学习笔记】-②回归
回归回归问题是机器学习三大基本模型中很重要的一环,其功能是建模和分析变量之间的关系。线性回归回归:从一组数据出发,确定某些变量之间的定量关系式同属于监督学习中回归(Regression、Prediction):预测石油价格、股票价格分类(Classification):判断男女,判断瓜的好坏线性回归:是通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个超平面,是得预测值与真实值之间的误差最小。符号约定:感觉这里的推导过程还是蛮详细且重要的自己推导一遍还蛮有意思原创 2021-07-30 23:53:07 · 161 阅读 · 1 评论 -
【温大机器学习笔记】-①绪论
感谢黄海光教授无私开源!!!机器学习概述个人定义机器根据数据修炼模型,依靠模型预测未来的方法要认识的大佬国内的李航-统计学习方法周志华-西瓜书应用领域模式识别数据挖掘计算机视觉语音识别统计学习自然语言处理机器学习的类型内容太多!【传送门】大致有:是否在人类监督下学习(监督学习、非监督学习、半监督学习和强化学习)是否可以动态的增量学习(在线学习和批量学习)是简单的将新的数据点和已知的数据点进行匹配,还是像科学家那样对训练数据进行模型检测,然后建立一个预测模型(原创 2021-07-29 21:58:26 · 194 阅读 · 0 评论 -
【SBL】稀疏贝叶斯学习模型Sparse Bayesian Learning
理论学习稀疏贝叶斯学习是由Tipping提出,并作为使用内核的机器学习方法,基于其优秀的分类和回归能力,SBL被广泛应用到很多研究领域。进一步,不含有内核的SBL也被证明在稀疏信号恢复,稀疏表示和压缩感知方面具有优秀的结果。在很多情况下,信号恢复可被认为是回归,因为它们的目标是最小泛化误差,因此,我们在做研究的时候,对影响因素X采用不含内核的SBL模型稀疏信号恢复公式表示N个样本的矩阵,并且每个样本皆有M个特征代表目标变量ϵ\epsilonϵ 表示白噪声代表模型学习用来构成φ\v原创 2021-07-14 01:27:45 · 9941 阅读 · 3 评论 -
【无监督学习】关联规则Apriori 与 FP-Growth
前言关联分析算法,是一种无监督的学习方法,算法的核心思想就是找出一些相关系的物品。如不最著名的啤酒与尿布湿的案例,我就很纳闷,也很疑惑,为什么一上数据挖掘课,老师必讲解啤酒与尿布!这里有一个题外话!题外话:但部分人都发现啤酒和尿不湿在沃尔玛超市的神器结合与连摆销售模式,但是对于一个超市来讲,个人认为在摆货架的时候,并非是将啤酒和尿布摆放在一个货架上,原因很简单。因为超市是一个大型购物中心,里面的商品玲琅满目,这其实对决策者来讲应该逆向思维!逆向思维:怎么说呢?假设我们不将啤酒与尿布摆设在一个架子上原创 2021-05-14 20:36:17 · 587 阅读 · 8 评论 -
机器学习-用线性回归拟合缺失值
我们在做计量经济学时,或者在做数据分析时,总是遇到个别个体的数据缺失,我的案例是关于年份与所对应的变量关系做法:1.将年份2010-2018分别设为[1,2,3,~~~,8],作为x,缺失的变量作为y2.将用python来拟合(预测)缺失的那年数据。下面例子是缺失了2010年的数据,在year中,是没有1的。# 读取或者输出数据data = pd.DataFrame({'year':[2,3,4,5,6,7,8,9],'y':[1.874018063,2.208148996,2.6原创 2020-10-12 11:00:06 · 2385 阅读 · 0 评论 -
第九届“泰迪杯”数据挖掘挑战赛C题-建模思路参考
明白甲方要什么• 1.吸引顾客,稳定客源• 2.发现竞争优势• 3.游客满意度以及影响因素这三者的关系• 1是最终目的,是核心• 23是1的路径研究• 2与3先导我们有什么?项目Value2个附件景区和酒店的评论 数据(示例数据和比赛数据);景区和酒店的评分样表;关键词样表1个C题详细说明__要解决的问题?• 1景区及酒店印象分析• 2景区及酒店综合评价• 3网评文本的有效性分析• 4景区及酒店的特色分析1景区及酒店印象分析• 初步构思关原创 2021-04-29 22:18:46 · 9313 阅读 · 27 评论 -
Python实战案例-写唐诗
安装模块pip3 uninstall gensim # 这里如果没有安装着不需要卸载pip3 install gensim==3.8.1导入模块转载 2020-11-22 23:55:02 · 912 阅读 · 0 评论 -
城市量化研究-PM2.5数据分析-pandas数据分析
数据分析import pandas as pdimport os1先选择一个样本分析rootdir = './_20200101-20201031/'file_name = 'china_sites_20200101.csv'os.path.join(rootdir,file_name)'./_20200101-20201031/china_sites_20200101.csv'data = pd.read_csv(os.path.join(rootdir,file_name))原创 2020-11-02 00:04:28 · 695 阅读 · 0 评论 -
城市量化研究-PM2.5数据分析-配置云端服务器
城市量化研究-PM2.5数据分析-配置云端服务器前言让我们的爬虫能够按照特定时间运行,将我们的代码放在云服务器上运行,因为像这类数据,一般网站会定时更新数据,将我们的爬虫放在云端服务器上执行,非人为因素,我们的代码可以一直跑下去。这样我们可以获取一个月、一年乃至更长的数据。使用库 schedule arrow需要库import scheduleimport arrow将前一步代码进行优化想对你说的都在代码里import requestsfrom lxml import etreeimp原创 2020-10-29 00:14:27 · 487 阅读 · 1 评论 -
城市量化研究-PM2.5数据分析-数据获取
城市定量化研究-PM25数据分析实战-数据获取爬去数据导入模块import requestsfrom lxml import etreeimport pandas as pd获取网页源代码res = requests.get('http://www.pm25.in').textres = etree.HTML(res)解析网页,获取城市的链接我们需要点击对应城市,转到相应的网页,获取相应的数据获取每个城市对应的url后缀,初步想法是将后缀与 http://www.pm25.i原创 2020-10-27 00:07:31 · 1584 阅读 · 0 评论 -
【自然语言处理-1】TF-IDF简单最实用的关键词提取技术
自然语言处理历史阶段时间发展意义早期阶段1956 年以前香农曾提出过概率模型来描述语言,乔姆斯基提出了基于规则的上下文无关文法。阶段还没有太明确的产出,只有一些简单的拼凑快速发展1957-1970两大派别分别从概率模型和规则模型分别进行了深入的研究,使用规则构建机器翻译已经小有成效瓶颈期1971-1993研究停滞,产出的隐马尔科夫模型(HMM)再次爆发1994 年之后运力设备提升,互联网崛起,飞速发展TF-IDFTF-IDF(Term fre原创 2021-04-29 15:52:44 · 1427 阅读 · 0 评论 -
机器学习最经典算法-SVM支持向量机-【基本解读算法+详细实际案例分部流程】
支持向量机(SVM)SVM算法可谓是最经典的机器学习算法了,具有泛化错误率低,分类速度快,结果易解释等特点多多,在应用领域涉及非常广,比如人像识别 、文本分类 、手写字符识别、人脸识别、生物信息学等等等,同时算法模型评估效果也是很优秀的,它为何这么优秀?实际背后其实是数学凸优化问题,即:局部最优解,一定是全局最优解【不好理解!】,你可以类比于高中线性优化问题的直线的平移问题【肤浅的理解】有兴趣可以参考这篇文章【传送门】支持向量机要解决的问题假设有这么些点,画条线,把它们分成两堆!很easy!一维:原创 2021-04-21 01:48:54 · 4457 阅读 · 2 评论 -
数值特征
离散值处理import pandas as pdimport numpy as npvg_df = pd.read_csv('datasets/vgsales.csv', encoding = "ISO-8859-1")vg_df[['Name', 'Platform', 'Year', 'Genre', 'Publisher']].iloc[1:7] Name Platform Year Genre原创 2021-04-16 00:47:34 · 207 阅读 · 1 评论