数据挖掘
文章平均质量分 72
onlyfansnft.art
人生苦短,我用Python
展开
-
『数据挖掘』什么样的数据才能称得上是大数据?
在我看来,只有数据量很大且数据维度全的数据才能够称得上是大数据。 为什么数据量必须得要大? 这是因为如果我们使用局部样本来代替整体的时候,可能会由于局部样本不能够完全反映整体,从而导致我们对整体的真实情况的认知造成偏差。例如当我们以贴吧和网易的用户素质来作为全体网民的整体素质,显然会造成我们对整体网民素质的认知要远比真实的素质要低,而如果用知乎来代替整体,则也会原创 2016-02-18 20:28:04 · 2194 阅读 · 0 评论 -
『sklearn练习』利用机器学习找出『冰雹猜想』中 n 和 fn 之间的关系
1、百度百科的解释:冰雹猜想2、本练习的目的是在假设冰雹猜想正确的情况下,利用数据挖掘的方法找出 n 和 fn 之间的关系,其中 n 是输入的整数 1、2、3..., fn 则是 n 经过一定规则的变换后得到 1 所经过的步骤次数,规则为 如果 n 是奇数则变为 3*n + 1,如果是偶数则为 n/23、生成数据 #! usr/bin/env python# coding:utf8原创 2016-11-26 22:35:52 · 1661 阅读 · 0 评论 -
『sklearn学习』沃德结构层次聚类的浣熊脸图像的演示
# 沃德结构层次聚类的浣熊脸图像的演示# A demo of structured Ward hierarchical clustering on a raccoon face imageimport time as timeimport numpy as npimport scipy as spimport matplotlib.pyplot as pltfrom sklear原创 2016-12-04 22:41:15 · 2366 阅读 · 0 评论 -
『sklearn学习』不同的 SVM 分类器
#! usr/bin/env python# coding:utf-8"""__author__ = "LCG22"__date__ = "2016-12-5""""import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svm, datasetsiris = datasets.load_i原创 2016-12-05 15:16:05 · 2571 阅读 · 0 评论 -
『sklearn学习』贝叶斯岭回归
# 贝叶斯岭回归(Bayesian Ridge Regression)import numpy as npimport matplotlib.pyplot as pltfrom scipy import statsfrom sklearn.linear_model import BayesianRidge, LinearRegression# 生成具有高斯权重模拟数据np.rand原创 2016-11-25 21:48:00 · 5491 阅读 · 2 评论 -
『sklearn学习』sklearn学习的相关资料
1、使用sklearn进行集成学习——理论2、使用sklearn进行集成学习——实践3、sklearn学习笔记之开始4、谁动了我的特征?——sklearn特征转换行为全记录5、使用sklearn优雅地进行数据挖掘备注:作者是个大神原创 2016-11-19 21:53:59 · 1149 阅读 · 0 评论 -
『sklearn学习』sklearn(书)学习笔记
1、在 scikit-learn 中,所有的估计器都带有 fit() 和 predict() 方法。fit() 用来分析模型参数(拟合),predict() 是通过 fit() 算出的模型参数构成的模型,对解释变量(特征)进行预测获得的值(预测)。原创 2016-12-29 01:59:51 · 2438 阅读 · 0 评论 -
『sklearn学习』《sklearn》第三章:特征提取与处理
### --------------------------------------------------- #### ------ 特征提取与处理 ------# ------ 分类变量特征提取 ------from sklearn.feature_extraction import DictVectorizerone_hot_encoder = DictVector原创 2016-12-29 23:49:00 · 1652 阅读 · 0 评论 -
『数据挖掘』面试题汇总及扩展知识
以下内容主要来自:数据挖掘工程师笔试及答案整理1、欠拟合和过拟合的原因有哪些?如何避免?2、决策树的父节点和子节点的熵的大小?请解释原因?3、衡量分类算法的准确率、召回率、F1 值(写公式)4、给你两个向量 a, ba)计算两者的欧氏距离b) 计算两者的曼哈顿距离参考资料:距离计算方法总结原创 2017-02-09 16:51:35 · 699 阅读 · 0 评论 -
『机器学习——周志华』学习笔记——第二章:模型评估与选择
一、经验误差与过拟合1、错误率:分类错误的样本数占样本总数的比例2、精度 = 1 - 错误率3、实际预测输出与样本的真实输出之间的差异被称为“误差”(error);在训练集上的误差被称为“训练误差”(training error)或“经验误差”(empirical error);在新样本上的误差被称为“泛化误差”(generalization error)4、过拟合:当学习器把训练原创 2016-05-25 23:31:29 · 2039 阅读 · 0 评论 -
『机器学习——周志华』第九章聚类
1、聚类试图将数据集中的数据划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)2、聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名思考:簇所对应的概念固然是可以任意命名的,但我们一般的规律仍然是通过样本的属性来命名的,这就意味着,有可能根据样本特征给不同的簇命名3、聚类既能作为一个单独的过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任原创 2016-11-20 16:43:46 · 1788 阅读 · 0 评论 -
统计学知识复习
1、均匀分布没有众数2、异常值的定义:①小于Q1(四分位数)- 1.5*IQR(四分位差Q3 - Q1) ②大于 Q3 + 1.5*IQR3、当数据分布左偏或右偏时,mean 可能不在 IQR 中4、IQR 无法反映全部数据5、离均差:Σ(Xi - mean)6、平均偏差:Σ(Xi - mean) / n原创 2017-01-08 02:28:44 · 534 阅读 · 0 评论 -
『sklearn学习』K-means 聚类
# K均值聚类 K-meansimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.datasets import make_blobsplt.figure(figsize=(12, 12))n_samples = 1500random_st原创 2016-12-04 20:33:02 · 2045 阅读 · 0 评论 -
『sklearn练习』MeanShift实践——泰坦尼克号幸存者分类
本文代码参考自:使用Python实现Mean Shift算法#! usr/bin/env python# coding:utf-8"""__author__ = "LCG22"__date__ = "2016-11-29"数据集:titanic.xls(泰坦尼克号遇难者/幸存者名单)***字段***pclass: 社会阶层(1,精英;2,中层;3,船员/劳苦大众)surv原创 2016-11-29 03:39:30 · 3545 阅读 · 0 评论 -
『机器学习——周志华』学习笔记——第一章
1、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。同时 Mitchell(1997) 给出了一个更形式化的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P,该程序对 E 进行了学习。2、机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“机器学习算法”。原创 2016-05-24 23:37:56 · 3244 阅读 · 0 评论 -
杂记_比赛的一些记录
目前遇到的问题:1、数据太多, excel表无法完全加载2、还没有确定使用什么算法对赛题的思考和分析:1、是什么原因影响一个歌手的新歌的点击数量?注: 以下原因不按权重大小来排序①歌手本身的名气: 因为歌手出名则意味着他有很多的粉丝, 而粉丝相比非粉丝会更容易接触到该歌手的歌曲②歌曲本身的质量: 人们更愿意分享好东西③音乐平台本身的推荐④原创 2016-05-12 23:41:01 · 791 阅读 · 0 评论 -
『阿里大数据竞赛』音乐流行趋势预测_不断更新
# 本文使用的语言是Python, 下面不再说明# 本文禁止盈利性转载一、数据预处理 1、读取数据 1.1 原始数据、测试数据与实际数据 什么叫原始数据?为什么要保留一份原始数据? 在读取数据之前我们要先保留一份原始数据, 并且在随后的处理的过程中不要对原始数据做任何操作。这样做的目的是为了避免在之后的过程中, 我们对数据进行了错误的修改,原创 2016-05-14 14:04:40 · 4943 阅读 · 2 评论 -
一些想要或读过的书及个人评价
1、机器学习 周志华个人评价: 知乎上的评价很好, 被称为是适合本科生看的机器学习教材。内容比较多, 深度比较浅, 数学知识不是很深。 唯一的遗憾是没有代码。原创 2016-05-18 22:09:52 · 666 阅读 · 0 评论 -
『python学习』keras库学习
1、Keras的核心数据结构是“模型”,模型是一种组织网络层的方式。Keras中主要的模型是Sequential模型,Sequential是一系列网络层按顺序构成的栈from keras.models import Sequentialmodel = Sequential()# coding:utf-8# 使用神经网络算法预测销量高低import pandas as pd#原创 2016-07-01 14:37:42 · 3244 阅读 · 2 评论 -
『Python数据分析与挖掘实战』第五章:挖掘建模
# coding:utf-8"""logistic 回归, 自动建模"""import pandas as pd# 参数初始化filename = r"C:\learning\DataMining\Book\Python_DataMining\Data\chapter5\demo\data\bankloan.xls"data = pd.read_excel(filename)x原创 2016-06-27 17:30:00 · 7553 阅读 · 0 评论 -
『python工作』MySQL 数据库学习
1、MySQL 数据类型http://www.cnblogs.com/zbseoag/archive/2013/03/19/2970004.html以下内容主要来自:http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html#c12、mysql -h 主机名 -u 用户名 -p-h原创 2016-08-24 18:07:16 · 1035 阅读 · 0 评论 -
『数据挖掘』scikit-learn包的初级学习
代码来源:【机器学习实验】scikit-learn的主要模块和基本使用# coding:utf-8# creat_time = "2016-05-26"# 加载数据(Data Loading)import numpy as npimport urllib# 从 UCI 机器学习数据仓库中下载数据url = "http://archive.ics.uci.edu/ml/machi原创 2016-05-26 23:27:45 · 1335 阅读 · 0 评论 -
『sklearn学习』多种模型预测脸的下半部分的结果对比
# 预测脸的下半部分import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import fetch_olivetti_facesfrom sklearn.utils.validation import check_random_statefrom sklearn.ensemble import E原创 2016-11-30 13:24:33 · 1222 阅读 · 0 评论 -
『sklearn学习』preprocessing函数——数据预处理
# 数据预处理from sklearn import preprocessingfrom sklearn import datasetsimport numpy as npboston = datasets.load_boston()X, y = boston.data, boston.targetprint X[:, :3].mean(axis=0)print X[:, :3]原创 2016-11-30 14:01:48 · 1793 阅读 · 0 评论 -
『sklearn学习』MeanShift 聚类
import numpy as npfrom sklearn.cluster import MeanShift, estimate_bandwidthfrom sklearn.datasets.samples_generator import make_blobs# Generate sample data 创建数据集centers = [[1, 1], [-1, -1], [1, -1原创 2016-11-29 00:46:44 · 4507 阅读 · 0 评论 -
『数据挖掘、机器学习』 常用算法思路、原理、公式、优缺点
1、朴素贝叶斯分类算法思路:通过计算在已知样本特征 X 下,该样本被分类为 CiC_i 类的概率,并取取得最大的概率的类为该样本所属分类假设:假设每个特征相互独立公式:P(Ci|X)=P(Ci)∏nk=1P(xk|Ci)∑ni=1P(Ci)P(X|Ci)(1) P(Ci|X) = \frac{P(C_i)\prod_{k=1}^{n}P(x_k|C_i) }{\sum_{i=1}^{n}P(C_i)原创 2017-03-13 16:42:46 · 785 阅读 · 0 评论