数据挖掘
文章平均质量分 86
春夏秋冬又一年
数据分析师
展开
-
19个可用的天气和气候数据集
多个国家的气象和气候以及天气数据集原创 2023-02-04 20:23:12 · 9661 阅读 · 0 评论 -
社区发现算法总结-以新浪用户数据为例.md
根据 https://blog.csdn.net/itplus/article/details/9286905 整理1 建模方法1.1 新浪微博可用信息微博内容地理位置毕业院校标签信息关注粉丝1.2 基本假设两个微博用户之间互动越频繁,那么二者之间的社交关系越密切,而亲密的社交关系代表着潜在的兴趣关联或者较强的线下社交关系。1.3 生成网络图用户当前节点想换关注的用户之间建边这里在相互关注的用户之间建立连接关系,主要是为了简化模型,此时对应的图为无向图。当然,我们也可以原创 2020-11-20 18:53:38 · 1024 阅读 · 0 评论 -
数据挖掘-机器学习-深度学习常用数据集
0.0 数据源大的数据收录网站github awesome-public-datasetsskymind open dataset : 保罗万象的数据集搜集网,什么类型的数据都有0.1 普通数据集即被交付给的原始数据集0.2 公开数据集0.2.1 离散和连续型普通数据集uci数据集 :一个公开的用于机器学习的数据集,包含几乎所有类别数据,适用于多种机器学习任务政府公开数据集欧洲政府公开数据集美国政府公开数据集新西兰政府公开数据集印度政府公开数据集中国人民银行,社会融资规模原创 2020-09-15 22:10:43 · 1076 阅读 · 0 评论 -
国际期刊会议
推荐文章阅读零时区 BBS站(展开完整界面) → 推荐文章 → 推荐文章阅读推荐文章阅读W3C版 原始文章 发信人: xlw (小蜜蜂), 信区: W3C标 题: 计算机领域 国际会议 分类排名发信站: 零时区 BBS站 (Wed Jan 18 18:48:08 2006), 站内现在的会议非常多,在投文章前,大家可以先看看会议的权威性、前几届的录用率,这样首先对原创 2014-06-12 15:17:17 · 2853 阅读 · 0 评论 -
R语言实现神经网络
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。 人工神经网络从以下四个方面去模拟人的智能行为:转载 2014-07-25 14:52:11 · 5608 阅读 · 0 评论 -
数据挖掘方法(2) 回归模型(简单线性回归)
一.概念 简单线性回归模型是用于估计一个连续预测变量和一个连续回应变量的线性关系。 回归方程或估计回归方程(estimated regression equation,ERE): y~=b0+b1*x 其中: .y~是回应变量的估计值 .b0是回归线在y轴上的截距 .b1是回归线的斜率 .b0和b1原创 2014-02-25 15:05:33 · 6276 阅读 · 0 评论 -
谷歌tensorflow基本概念
start up1.1 谷歌深度学习工具历史:第一代:DistBelief 由 Dean于2011年发起,主要产品有: Inception (图像识别领域)谷歌Search谷歌翻译谷歌照片第二代:TensorFlow 由Dean于2015年11月发起,大部分DistBelief都转向了TensorFlow1.2 产品特性 概念 描述 编程模型 类数据流的模型 语言翻译 2016-06-13 15:45:53 · 7190 阅读 · 3 评论 -
贝叶斯分类
一 概念及引入 贝叶斯定理由 Thomas Bayes名字命名,他是18世纪概率论和决策论的早期研究者。 在介绍贝叶斯定理前,我们需要先了解三个概念: (1)条件概率:表示事件B已经发生的前提下,事件A发生的概率,其基本求解公式为:原创 2014-03-23 13:22:57 · 1130 阅读 · 2 评论 -
数据挖掘方法:(6) 逻辑回归
一. 引子 假设有如下关于患者年龄与患病情况的数据集: 我们画出对照图看看数据分布: > edit(patient) patient_id age if_sick [1,] 1 25 0 [2,] 2 29 0 [3,] 3 30原创 2014-03-18 14:15:56 · 1944 阅读 · 0 评论 -
Lucene评分机制
原文来自:http://www.blogjava.net/ashutc/archive/2011/04/15/348339.html感觉写分比较细致。就转来留着在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示:public Explanation explain(Weight weight, int doc) throws IOExceptio转载 2013-07-17 17:55:22 · 887 阅读 · 0 评论 -
计算字符串相似度算法——Levenshtein
http://wdhdmx.iteye.com/blog/1343856Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。转载 2013-07-19 17:46:44 · 1456 阅读 · 0 评论 -
社区发现(Community Detection)算法
作者: peghoty 出处: http://blog.csdn.net/peghoty/article/details/9286905 社区发现(Community Detection)算法用来发现网络中的社区结构,也可以看做是一种聚类算法。以下是我的一个 PPT 报告,分享给大家。转载 2013-09-18 11:32:14 · 14872 阅读 · 2 评论 -
数据挖掘方法(1)主成分分析
一.概念 主成分分析(principle components analysis,PCA)是指将多个变狼通过线性组合,选出较少个数的重要变量集合来描述相关结构的额一种统计分析方法,这些线性组合被称为“成分”。由m个变量组成的数据集的总变异,可以由k个线性组合变量组成的子集来标示(k原创 2014-02-24 17:03:00 · 4533 阅读 · 0 评论 -
数据挖掘方法(4):多元回归
一. 概述 前面介绍了一个预测变量和一个回应变量的回归,但数据挖掘通常对一个回应变量和多个预测变量之间的关系更感兴趣,数据中可能有很多变量都与目标(回应)变量有线性关系,多元回归模型可以更加精确的预测这些关联。 多元回归模型如下: y=b0+b1*x1+b2*x2+.......+e 其中b0,b1,b2.....是模型参数,为常数,可以原创 2014-03-06 19:00:08 · 2281 阅读 · 0 评论 -
数据挖掘方法(5):多重共线性及变量选择方法
一 概念 多重共线性: 也即使用的多个预测变量之间存在线性相关。多重共线性会导致解的不稳定,进而可能导致意外的结果。在线性代数中,基坐标必须是相互正交的,也即不相关的,此处在做多元回归预测时,必须保证预测变量之间是不相关的。 避免手段: (1)分析之前: a. 逐个计算预测变量之间的相关系数。 > cor(sugar$sugars,sugar$原创 2014-03-08 19:18:27 · 6484 阅读 · 0 评论 -
数据挖掘方法(7):解读逻辑回归
一. 数据描述 来源:数据集合(http://download.csdn.net/detail/huangxia73/7059709) 描述:电信数据,有多个属性,用来预测客户流失。 载入数据如下: > call_consumer<-read.table(file="d:/LabData/RData/churn.txt",header=TRUE,sep=",")Wa原创 2014-03-19 12:58:42 · 2050 阅读 · 0 评论