![](https://img-blog.csdnimg.cn/20200310081731608.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据挖掘
文章平均质量分 83
数据挖掘、机器学习等相关学科的知识点总结
GUI Research Group
机器学习, 生物信息
展开
-
文本挖掘(part1)--文本挖掘概述
学习笔记,仅供参考,有错必纠文章目录文本挖掘概述什么是文本挖掘文本挖掘的意义文本挖掘的基本流程和任务基本流程常见的分析任务各个应用方向的举例文本挖掘的基本思路文本中所包含信息的层次NLP的基本思路原始语料数据化时需要考虑的工作文本挖掘概述什么是文本挖掘所谓文本挖掘就是想办法对文本这种数据加以利用. 从大量文本数据中抽取隐含的,未知的,可能有用的信息,这也被称为自然语言处理(NLP).文本挖掘的意义人类文明的历史信息,90%以上都是以文本形式存在;电子版的文本数量在不断增长,需要自动化原创 2021-11-24 15:49:21 · 858 阅读 · 0 评论 -
阿里大数据分析与应用(part2)--大数据分析的流程与常用技术
学习笔记,仅供参考,有错必纠学习自:云中学院大数据课堂文章目录大数据分析流程数据采集方法大数据采集方法离线数据采集ETL实时数据采集与处理数据预处理技术数据集成数据清洗数据变换数据规约数据存储与管理分布式文件系统-HDFS分布式列存数据库 – HBase内存数据库 – Redis消息分发和存储 – Kafka非结构化数据存储 – OSS数据分析处理技术离线批处理MapReduce通用计算框架 – Spark实时流处理大数据分析方法数据挖掘机器学习数据可视化数据可视化技术数据可视化常见方法常见可视化图表原创 2020-11-16 09:22:47 · 814 阅读 · 0 评论 -
阿里大数据分析与应用(part1)--大数据概述
学习笔记,仅供参考,有错必纠学习自:云中学院课堂网课文章目录什么是大数据大数据的特征VolumeVarietyValueVelocity大数据的分类什么是大数据大数据(Big Data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特征大数据的主要特征我们可以用4个V来概括:Volume,大数据的体量非常巨大Variety,种类繁多,大数据的来源多种多样原创 2020-11-15 22:37:01 · 1045 阅读 · 2 评论 -
No, Machine Learning is not just glorified Statistics
学习笔记,仅供参考转载自:No, Machine Learning is not just glorified Statistics文章目录No, Machine Learning is not just glorified StatisticsMachine Learning = Representation + Evaluation + OptimizationRegression Over 100 Million Variables — No Problem?No, Machine Lear转载 2020-11-04 09:34:06 · 161 阅读 · 0 评论 -
如何成为一位数据科学家(图灵访谈)
学习笔记,仅供参考,有错必纠摘自:《机器学习实战》作者Peter Harrington:如何成为一位数据科学家访谈对象:Peter Harrington机器学习似乎比其他计算机科学学科都要难,特别是对于数学不太好的程序员而言。你对这些程序员有什么样的建议呢?我建议应该先自学基本的概率、统计,以及线性代数。你不需要学一个学期那么长的课,这些基础知识就会让你有很大收获。有很多在线资源,比如Kahn academy视频。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的原创 2020-11-04 06:40:57 · 352 阅读 · 1 评论 -
数据科学备忘录
学习笔记,仅供参考翻译自:Guide to Data Science Cheat Sheets在过去的几年里,随着人们对数据科学家的热情和需求的持续增长,人们渴望学习如何在这个看似有利可图的职业中加入、学习、发展和茁壮成长。作为一个写分析文章并偶尔教授它的人,我经常被问到——我如何成为一名数据科学家?我的大学科学与统计学的多学科数据处理似乎有很大的不同。但是,撇开营销术语不谈,数据科学家是一个可以用几种语言(主要是R、Python和SQL)编写代码的人,可以使用足够的统计知识来为企业提供决策时可操原创 2020-11-03 17:17:10 · 258 阅读 · 0 评论 -
今日代码(200924)--缺失值处理
缺失值处理对110个城市10年的数据进行缺失值处理。knitr::opts_chunk$set(echo = T, message = FALSE, warning = FALSE)导包library(VIM)library(mice)library(readr)library(psych)library(fpc)library(lattice)library(MASS)自定义函数#统计行/列 缺失值函数countNaN <- function(myline) {原创 2020-09-24 22:43:08 · 430 阅读 · 0 评论 -
今日代码(200725)--数据录入(python+mysql)
代码记录数据录入(python+mysql)前言相比于200612代码增加了一个性别、运动员编号、运动员姓名字段。代码# -*- coding: utf-8 -*-import reimport datetimeimport osfrom pandas import DataFrameimport pandas as pdimport pymysqlclass EiDealData: def __init__(self): self.pat原创 2020-07-25 00:49:32 · 232 阅读 · 0 评论 -
今日代码(200624)--缺失值处理
代码记录缺失值处理前言某个比赛中数据的缺失值处理,但是缺的很有规则,填补起来很有逻辑,比较清爽。开始填补#导包library(VIM)library(psych)library(lattice)library(mice)library(MASS)#读取数据getwd()setwd("C:/Users/goatbishop/Desktop/data")car_srv_train <- read.csv("car_srv_train.csv", heade原创 2020-07-26 17:05:43 · 335 阅读 · 0 评论 -
今日代码(200714)--主客观求指标权重及求城市得分
代码记录主客观求指标权重及求城市得分前言有22个指标和71个城市的10年数据,现在利用主成分分析法求出客观权重,并结合主管权重得出总权重,最后利用权重与标准化数值求出10年的得分。前期准备设置工作路径,读取数据workL = "C:/Users/goatbishop/Desktop/data"setwd(workL)getwd()library(magrittr)data <- read.csv("data0710.csv", stringsAsFactors = F)原创 2020-07-19 17:39:07 · 413 阅读 · 0 评论 -
数据挖掘学习日志(part2)--主成分法确定权重与R实现
学习笔记,仅供参考,有错必纠参考文献:基于主成分分析的指标权重确定方法–韩小孩;主成分法确定权重原理构造样本阵其中,xijx_{ij}xij表示第iii组样本数据中的第jjj个变量的值。对样本阵XXX进行变换变换后得到Y=[yij]n×pY=[y_{ij}]_{n \times p}Y=[yij]n×p对YYY做标准化变换得标准化阵其中,zij=yij−yj‾sjz_{ij}= \frac{y_{ij}- \overline{y_j}}{s_j}zij原创 2020-07-13 23:58:11 · 1374 阅读 · 0 评论 -
R语言观察日志(part10)--file函数
学习笔记,有错必究,仅供参考逐行读取文件并对字符串按照字母顺序排序我们知道R的很多函数(比如read.csv)都是将文件一次性读进内存的,我们也知道(假设都知道)python中是用open函数打开一个文件,创建一个file对象,之后再用file.readline()方法得到一行数据的,那么我么如何实现类似于python这样的操作呢?我们可以使用file函数。file函数file(description = "", open = "", blocking = TRUE, enco原创 2020-07-12 16:57:09 · 2319 阅读 · 0 评论 -
今日代码(200623)--回厂日期预测(python + R)
代码笔记,仅供参考回厂日期预测前言,对不同客户的下一次返厂时间进行预测,大多数客户的返厂次数不足10次,仅有少量客户返厂次数大于30次。平均值法预测(python)# -*- coding: utf-8 -*-import pymysqlimport timeimport numpy as npimport pandas as pdclass CarTest: def __init__(self): self.db = pymysql.connect(h原创 2020-08-07 12:19:58 · 999 阅读 · 10 评论 -
数据挖掘学习日志(part1)--熵值法
学习笔记,仅供参考熵值法信息熵是将系统无序程度的度量,信息是系统有序程度的度量,二者绝对值相等但符号相反,某项指标的指标值变异程度越大,信息熵就越小,该指标提供的信息量就越大,该指标的权重也应越大;反之,某项指标的指标值变异程度越小,信息熵越大,该指标提供的信息量越小,该指标的权重也应越小。所以可以根据各项指标值的变异程度,利用信息熵工具,计算出各指标权重,具体步骤为:将各指标同度量化,计算第jjj项指标下第iii个方案指标值的比重pij=xij∑i=1mxijp_{ij}= \fr原创 2020-07-09 16:53:46 · 1015 阅读 · 0 评论 -
今日代码(200708)--缺失值处理
代码记录对经济数据集中的缺失值进行处理前言这个数据集中存在大量的缺失,主要原因是某几个年份的某些指标没找到,或者干脆就是某些指标很难找,导致该指标数据的大批量丢失,更有甚者,由于要查找的年份(2017-2018)较近,所以缺失值巨多。代码library(VIM)library(mice)library(readr)library(psych)library(fpc)mydata <- read_csv("data01.csv")head(mydata)str(m原创 2020-07-19 09:54:28 · 334 阅读 · 0 评论 -
聚类算法(part1)--DBSCAN
学习笔记,仅供参考,有错必纠参考书目:《数据挖掘导论》;《R语言实战》;《应用预测建模》;《R语言与数据挖掘》;等聚类密度聚类基于密度的聚类寻找被低密度区域分离的高密度区域。DBSCAN是一种简单、有效的基于密度的聚类算法,它解释了基于密度的聚类方法的许多重要概念。基于中心的方法在基于中心的方法中,数据集中特定点的密度通过对该点EpsEpsEps半径之内的点计数(包括点本身)来估计。如下图所示,点A的EpsEpsEps半径内点个数为7,且包括A本身:该方法实现简单,但是点的密度取决原创 2020-07-07 19:53:39 · 986 阅读 · 0 评论 -
数值分析(part1)--拉格朗日插值
学习笔记,仅供参考,按学习进度更博,不按书本顺序学习书籍:《数值分析》–Timothy Sauer插值数据和插值函数定义(3.1)如果对于每个1≤i≤n,P(xi)=yi1 \le i \le n, P(x_i)=y_i1≤i≤n,P(xi)=yi,则称函数y=P(x)y = P(x)y=P(x)插值数据点(x1,y1),...,(xn,yn)(x_1, y_1), ..., (x_n, y_n)(x1,y1),...,(xn,yn)拉格朗日插值定理(多项式插值原创 2020-07-07 15:20:40 · 331 阅读 · 0 评论 -
python从数分到数编(part2)--随机数及数组
学习笔记,仅供参考,觉得哪里不错就记哪里学习书目:《python编程从数据分析到数据编程》–朝乐门;参考自:numpy.random.randn()与rand()的区别;Python numpy.full函数方法的使用文章目录随机数生成一个随机数生成一个随机数组np.full方法形状与重构ndarray的拆分与合并拆分合并插入与删除缺失值处理检测缺失值在缺失值存在的情况下求和ndarray的排序随机数生成一个随机数输入:import random#设置随机种子random.see原创 2020-07-01 00:50:06 · 297 阅读 · 0 评论 -
python观察日志(part22)--设置工作目录及文件读取
学习笔记,仅供参考参考自:pandas.read_csv参数详解;《python编程从数据分析到数据编程》查看并更改当前工作目录当前工作目录就是python(准确的说,是python解释器和编辑器)的读写文件和文件夹的默认路径。举个例子In [35]: os.getcwd()Out[35]: 'C:\\Users\\goatbishop'In [36]: os.chdir(r"C:\Users\goatbishop\Desktop\data")In [37]: os.getcwd原创 2020-06-30 16:52:40 · 368 阅读 · 0 评论 -
今日代码(200612)--数据录入(python+mysql)
代码笔记,仅供参考文章目录任务python代码mysql数据库任务现在要对一堆PDF文档里的数据进行数据提取,规整并整理成一个完整的数据表。PDF里的数据的格式是这样的(由于数据不可外泄,所以我进行马赛克处理,只保留部分数据):上面显示的表格是我们需要的数据,当然,这个PDF文档中还有很多我们不需要的干扰数据,所以,我用正则表达式去匹配我需要的数据,并添加了一些条件,禁止干扰数据进入我们最后的数据表中。这些PDF文档的名字很规整,方便我们处理,我们可以利用PDF名称的信息对从提取到的原创 2020-06-12 21:48:13 · 570 阅读 · 0 评论 -
数据分析师实习岗笔试题(part1)
笔试后记,仅供参考因为公司说不能泄露笔试题,所以我就加了点润色,但是不影响内容限时免费:1天前言笔试时间:2020年6月笔试方式:在线笔试笔试内容:sql语言、R语言/python、统计学相关知识笔试时间:2小时之内来几个励志的名人名言吧要随时牢记在心中:决心取得成功比任何一件事情都重要。——林肯烈火试真金,逆境试强者。——塞内加笔试内容第一题现在需要按月统计汇总,得到最近1个月每个省份每个月的成交总数,输出结果是省份、月份、成交总数,其中同一个省份按月份从前到后原创 2020-06-10 11:40:28 · 1456 阅读 · 0 评论 -
算法工程师实习岗面试题(part1)
面试笔记,不一定记得很全,但大概是这个意思因为公司说不能泄露面试题,所以我就加了点润色,但是不影响内容限时免费:1天前言面试时间:2020年6月面试方式:电话面试面试内容:数据挖掘及机器学习,包含一些编程面试时间:25分钟来几个励志的名人名言吧只有经历过地狱般的磨砺,才能练就创造天堂的力量;只有流过血的手指,才能弹出世间的绝响。——泰戈尔未曾失败的人恐怕也未曾成功过——佚名人的一切痛苦,本质上都是对自己的无能的愤怒。——王小波面试内容面试官:说出你的故事(原创 2020-06-09 21:41:01 · 2194 阅读 · 0 评论 -
回归树与基于规则的模型(part4)--基于规则的模型
学习笔记,仅供参考,有错必纠回归树与基于规则模型基于规则的模型A rule(规则) is defined as a distinct path through a tree(树中一条不重复的路径).For thetree, a new sample can only travel down a single path through the tree defined by these rules.(对于一棵树,新观测只能沿着唯一的一条路径由上至下,而路径正是由一系列规则定义的) The numbe原创 2020-06-09 08:16:07 · 597 阅读 · 0 评论 -
回归树与基于规则的模型(part3)--回归模型树
学习笔记,仅供参考,有错必纠回归树与基于规则的模型回归模型树One limitation of simple regression trees is that each terminal node(最终节点) uses the average of the training set outcomes(训练结果变量的平均值) in that node for prediction. As a consequence, these models may not do a good job predi原创 2020-06-08 23:08:52 · 456 阅读 · 0 评论 -
回归树与基于规则的模型(part2)--简单回归树
学习笔记,仅供参考,有错必纠回归树与基于规则的模型简单回归树简单回归树将数据划分为若干组,其中组内的样本点在结果变量取值上具有一定的同质性。为了实现这种同质性划分,回归树需要决定:用于切分的预测变量及对应的切分点树的深度或复杂度最终节点上的预测方程在这里,我们首先关注最终节点为常数的模型。构建回归树有许多不同的方法,其中,最常用的就是the classification and regression tree (CART) methodology of Breiman.对于回归问题原创 2020-06-08 20:54:22 · 568 阅读 · 2 评论 -
回归树与基于规则的模型(part1)--if-then语句
学习笔记,仅供参考,有错必纠回归树与基于规则的模型if-then语句基于树的模型由一个或多个针对预测变量的if−thenif-thenif−then语句组成,它们被用来对数据进行划分,基于这些划分,一个特定的模型将用来对结果变量进行预测。例如,一个简单的树模型可以定义为:在这个例子中,二维的预测变量空间被分为了三块区域,并且在每一块区域中,结果变量将被预测为同一个数字。下图将这些规则表达在了预测变量空间中:利用树模型的术语,我们称数据进行了两次切分,并形成了3个最终节点(页)。最终节原创 2020-06-07 23:32:13 · 1480 阅读 · 0 评论 -
非线性回归模型(part3)--K近邻
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式非线性回归模型k近邻The KNN approach simply predicts a new sample using the K -closest samples from the training set.KNN cannot be cleanly summarized by a model.Instead, its construction is solely based on the individual sampl原创 2020-06-07 12:51:20 · 491 阅读 · 0 评论 -
非线性回归模型(part2)--支持向量机
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式非线性回归模型支持向量机SVMs are a class of powerful, highly flexible modeling techniques.For regression, we follow Smola (1996) and Drucker et al. (1997) and motivate this technique inthe framework of robust regression(稳健回归) wh原创 2020-06-07 11:23:27 · 1131 阅读 · 0 评论 -
非线性回归模型(part1)--神经网络
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式,有些英文下有中文翻译(并不是博主翻译的)非线性回归模型神经网络Neural networks (Bishop 1995; Ripley 1996; Titterington 2010) are powerful nonlinear regression techniques inspired by theories about how the brain works.The outcome is modeled by an i原创 2020-06-06 23:10:52 · 1567 阅读 · 0 评论 -
衡量回归效果与方差-偏差权衡
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式,有些英文下有中文翻译(并不是博主翻译的)文章目录衡量回归模型的效果衡量效果的定量度量方差-偏差的权衡衡量回归模型的效果衡量效果的定量度量When the outcome is a number(当结果变量是数值时), the most common method for characterizing a model’s predictive capabilities is to use the root mean squar原创 2020-06-06 19:50:51 · 682 阅读 · 0 评论 -
过拟合与模型调优(part3)--数据划分及模型选择
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式,有些英文下有中文翻译文章目录选择调优参数值数据划分建议不同模型间的选择Logistic回归与支持向量机选择调优参数值In general, it may be a good idea to favor simpler models over more complex ones and choosing the tuning parameters based on the numerically optimal value may原创 2020-06-06 17:05:34 · 401 阅读 · 0 评论 -
过拟合与模型调优(part2)--重抽样技术
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式,有些英文下有中文翻译文章目录重抽样技术k折交叉验证重复训练/测试集划分Bootstrap方法重抽样技术Generally, resampling techniques for estimating model performance operatesimilarly:先用一个子样本去拟合模型,然后用其余的样本评估模型。这过程会重复多次,然后对结果进行汇总归纳,不同的重抽样技术的差别往往体现在怎么选取子样本上。k折交叉验原创 2020-06-06 14:14:37 · 375 阅读 · 0 评论 -
过拟合与模型调优(part1)--过拟合,模型调优,数据分割
学习笔记,仅供参考,有错必纠PS : 本BLOG采用中英混合模式,有些英文下有中文翻译文章目录名词解释模型调优过拟合问题模型调优数据分割名词解释模型调优we will assume that data quality is sufficient and that it is representative of the entire sample population.Working under these assumptions, we must use the data at hand原创 2020-06-06 12:21:06 · 414 阅读 · 0 评论 -
数据预处理(part3)--缺失值处理和区间化
学习笔记,仅供参考,有错必纠文章目录处理缺失值移除预测变量预测变量间的相关性区间化预测变量处理缺失值在很多时候,某些预测变虽会在一些样本上缺少观测。这些缺失值可能是结构性缺失,如一个男子的后代数目.了解缺失值发生的原因是很重要的,首先,应该调查数据缺失是否和结果变量有关,这种情形被称为"有信息量的缺失",因为缺失情况本身是结构性的。缺失数据不应该和删失数据相混淆,对于后者具体的观测依是缺失了,但我们仍知道一些信息,例如,出租碟片公司在建模时如果使用用户持有碟片时长这一变量,如果客户还未归还原创 2020-06-06 10:13:12 · 588 阅读 · 0 评论 -
数据预处理(part2)--多个预测变量数据变换
学习笔记,仅供参考,有错必纠文章目录多个预测变量数据变换离群值数据降维和特征提取多个预测变量数据变换离群值我们通常将离群值定义为远离数据主要部分的样品。我们通常可以通过观察图像来确定一些不寻常的点。当一个或多个样本为疑似离群值时。第一步,是保证这些数据在科学上是有效的(比如,理论上是正数),而且没有数据输人的错误。要非常小心不要草率地移除或改变观测值,尤其当样本量很小的时候,在小样本量的情况下,明显的离群可能因为数据来自于一个有偏分布,而我们没有足够的数据观测到这个偏度.此外,离群点可能原创 2020-06-06 01:03:37 · 748 阅读 · 0 评论 -
数据预处理(part1)--单个预测变量数据变换&R语言
学习笔记,仅供参考,有错必纠文章目录单个预测变量数据变换中心化与标准化知识补充R语言实现数据变换解决偏度问题R语言实现单个预测变量数据变换中心化与标准化中心化是将所有变量减去其均值,其结果使变换后的变量均值为0;标准化是将每个变量除以其自身的标准差,其结果使变换后的变量标准差为1.这些操作普遍用来提升计算的稳健性。这些变换的唯一缺点是失去了观测的可解释性,因为它们不再使用原本的单位。中心化公式:xi∗=xi−x‾x^*_i=x_i-\overline{x}xi∗=xi−x统计原创 2020-06-05 11:44:15 · 635 阅读 · 0 评论