数据挖掘 学习笔记
文章平均质量分 78
数据分析,数据挖掘,kaggle学习笔记
CHERISHGF
多读书,多思考
展开
-
TensorFlow-函数记录
numpy.eye(N,M=None,k=0,dtype=<class 'float'>,order='C')Return a 2-D array with ones on the diagonal and zeros elsewhere.返回一个对角线上为1,其他地方为0的二维数组。参数Nint Number of rows in the output.Mint, optiona Number of columns in the output. If None,...原创 2020-07-03 15:28:00 · 2586 阅读 · 0 评论 -
图像几何变换
几何变换在齐次坐标下,改变位置,不改变像素值图像缩放1.调用APIimport cv2import numpy as np# 图像缩放:你得有缩放的比例吧img = cv2.imread('image0.jpg', 1)# 调用APIimgInfo = img.shapeheight = imgInfo[0]width = imgInfo[1]dstHeight = in...原创 2020-01-09 21:21:18 · 193 阅读 · 0 评论 -
【案例】失业率数据分析
数据记录1948年~2016年每个月份的美国失业率情况显示中文在代码中加入from pylab import *mpl.rcParams['font.sans-serif']=['SimHei']报错:TypeError: only size-1 arrays can be converted to Python scalars给plt.bar函数传的参数y列表里面不是...原创 2020-04-08 21:20:28 · 3080 阅读 · 1 评论 -
数据分析各图的含义
https://www.zhihu.com/question/40903517/answer/794481990饼图将数据划分为几个有明显区别的组,饼图体现的是比例,当所有扇区大小相近时,使用饼图就无太大意义。举例:表示比例折线图用来展示数值型数据,能体现数据趋势,趋势比条形图更清晰,对数据进行比较用折线图用折线图来表示是没有意义的举例:表示趋势条形图可用来表示比例...原创 2020-04-05 19:03:39 · 1177 阅读 · 0 评论 -
统计学习---决策树
决策树定义在特征空间与类空间上的条件概率分布。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。3步走:特征选择,决策树的生成,决策树的修剪 决策树模型是一个树形结构,内部结点表示一个特征或属性,叶结点表示一个类。用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这...原创 2018-09-13 10:38:32 · 460 阅读 · 0 评论 -
机器学习---人脸识别
人脸识别作业总结#coding:utf8import loggingfrom sklearn.cross_validation import train_test_split#划分数据集from sklearn.datasets import fetch_lfw_people#数据库from sklearn.grid_search import GridSearchCV#自动调参...原创 2018-10-06 14:14:48 · 1775 阅读 · 2 评论 -
TensorFlow-模型参数
positive_data_dir = "data/train/pos"negative_data_dir = "data/train/neg"data_dirs = [negative_data_dir, positive_data_dir]out_dir = "runs"正负样本数据文件夹,以及最后输出的文件夹名称文件夹里面是一个一个的txt,每一个文本代表一个样本包含以及预处理后的数据document_length_limit = 1000is_line_as_word = .原创 2020-07-03 10:41:05 · 542 阅读 · 0 评论 -
深度学习---线性回归
线性问题能够用解析的方式解决线性回归如果一个预测问题,它的输入是变量x,目标y是连续值(实数或连续整数),预测函数f(x)的输出也是连续值,这种机器学习问题是回归问题。如果预测函数是线性的y=wx+b,该回归问题就是线性回归问题。目标函数根据损失函数,要调整参数的Torch 上学习linear-regressionhttps://github.com/tor...原创 2018-10-06 16:16:56 · 1419 阅读 · 0 评论 -
统计学习方法---感知机
感知机是二类分类的线性分类模型输入为实例的特征空间,输出为实例的类别,取+1,-1。感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。看到这依旧不知道感知机是个啥玩意。。。 感知机模型输入一个x经过感知机函数的计算...原创 2018-09-10 09:00:46 · 281 阅读 · 0 评论 -
深度学习---卷积神经网络
简述流程: 1.Load and normalize data; 2.Define Neural Network; 3.Define Loss function; 4.Train network on training data; 5.Test network on test data.一、加载数据并对数据进行归一化Q:为什么要对数据进行归一化?...原创 2018-09-21 11:48:40 · 764 阅读 · 0 评论 -
统计学习---逻辑斯蒂回归与最大熵模型
逻辑斯蒂回归和最大熵模型 逻辑斯蒂分布逻辑斯蒂回归模型将权值向量和输入向量加以扩充后的逻辑斯蒂模型为 模型参数估计极大似然估计法 最大熵模型 最大熵原理:在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合。在满足约束条件的模型集合中选取熵最大的模型。 首先,选择的概率模型必须满足...原创 2018-09-13 12:38:52 · 314 阅读 · 0 评论 -
统计学习---朴素贝叶斯
朴素贝叶斯基于贝叶斯定理与特征条件独立的假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。 贝叶斯定理P(A|B):在事件B发生条件 下的事件A发生的概率,在贝叶斯定理中,条件概率也被称为后验概率,在事件B发生之后,对事件A发生的概率的重新评估。P(B|A)...原创 2018-09-10 13:22:22 · 312 阅读 · 0 评论 -
人工智能---回归
线性回归y=ax+b多个变量的线性回归我可能上了个假课,我可能失忆了,老师讲的一个没记住,现在还看不懂了....逻辑斯蒂回归Logistic/sigmoid函数应该是失忆了..........原创 2018-10-06 16:33:46 · 450 阅读 · 0 评论 -
深度学习---卷积神经网络代码
梳理CNN流程,解释参数Torch与python对比学习Deep Learning with Torchhttps://github.com/soumith/cvpr2015/blob/master/Deep%20Learning%20with%20Torch.ipynb手写数字神经网络,是一个简单的前馈网络。接受输入然后一层层的传递,最后给出输出。 require 'n...原创 2018-10-06 13:59:38 · 1053 阅读 · 0 评论 -
机器学习引论
机器学习是一个我以前从来不懂得概念,现在开始要好好学习。以前也有听过什么是机器学习,现在又给忘了。。。机器学习缘起:大数据。现在只要出门,摄像头、手机定位、社交媒体只要我们生活在这个社会每天每个人都会产生巨大的数据量。这些数据分辨率很高,存储能力强,采集手段多样,数据的传播模式日新月异,数据生产门槛低,数据存储单位多(不仅数据产生者可以存储,浏览者、传输者也可以),数据深度利用门槛高(从一大堆...原创 2018-09-05 12:51:06 · 476 阅读 · 2 评论 -
统计学习---K近邻法
K近邻假设给定的一个训练数据集,其中的实例类别已定。分类时,根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测。利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。K值得选择,距离度量,分类决策规则,三个基本要素离它最近的最多的是那一个类就把它划到那一个类里面。 K近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例...原创 2018-09-10 10:44:31 · 299 阅读 · 0 评论 -
人工智能---决策树
决策树学习采用的是自顶向下的递归方法, 其基本思想是以信息熵为度量构造一棵熵值 下降最快的树,到叶子节点处的熵值为零, 此时每个叶节点中的实例都属于同一类。建立决策树的关键,即在当前状态下选择哪 个属性作为分类依据。决策树很好理解,主要是信息增益,信息增益比,基尼系数中熵的概念的理解是理解决策树的关键熵两个随机变量X,Y的联合分布,可以形成联合熵Joint Entrop...原创 2018-10-06 16:44:14 · 1855 阅读 · 0 评论 -
时间序列分析
pandas生成时间序列数据时间序列:时间戳timestamp:我只关注当下的这一个点2020年4月8日16点27分10秒,固定周期period时间间隔interval随时间变化数据发生了什么变化pandas创建时间序列函数data_range# TIMES #2016 Jul 1 7/1/2016 1/7/2016 2016-07-01 2016/07/01r...原创 2020-04-08 20:41:18 · 1508 阅读 · 1 评论 -
python+opencv 图像读取保存
import cv2# 图像读取img = cv2.imread('image0.jpg', 1) # 1读入彩色图像 0读入灰度图像 彩色图像是BGRcv2.imshow('BGR', img)cv2.waitKey(0)# 转换成RGBimg = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)cv2.imshow('RGB', img)cv2.wai...原创 2020-01-09 17:03:15 · 257 阅读 · 0 评论 -
统计学习方法---导论
统计学习方法出来混总是要还的,什么条件概率,贝叶斯,似然函数...全忘光了,学习这门课默默的又要捡起来了,遇到不会的就自己查查记录一下。今天主要是讲了统计学习方法的第一章,三要素。先去自学一下,再来整理来了,cpu疼......统计学习的定义,研究对象与方法统计学习:计算机/基于数据/构建概率统计模型/并运用模型对数据进行预测与分析。-------用训练集学习一个模型,然后用这...原创 2018-09-05 21:13:49 · 756 阅读 · 0 评论 -
【案例】泰坦尼克获救预测
背景分类任务,什么样的人会获取 891份样本,7个特征 有些特征存在缺失需要补充,有些特征意义不大需要删除不参与建模 分析每个特征对最终是否被救的重要度年龄缺失值填充# 中值填充titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median())性别类别转换# 类别转换print (titanic["Sex"...原创 2020-04-15 14:23:32 · 351 阅读 · 0 评论 -
【案例】交易数据异常检测
背景信用卡欺诈数据,这是个提取好特征的数据 用逻辑回归来进行建模 数据全部都是数值型的数据,28万左右样本,28个可用的特征,特征整体看上去都在一个量纲内 Amount特征浮动比较大,需要预处理进行规范化 对class进行分类,0:1=284315:492.分布极度不均衡,需要进行处理对于这种去发现欺诈数据,医疗数据中去发现得病的类别,这类数据的负样本通常比较少,都存在样本分布极度...原创 2020-04-10 11:42:58 · 1395 阅读 · 1 评论 -
【案例】梯度下降求解逻辑回归
似然函数:什么样的参数跟我们的数据组合后恰好是真实值线性回归函数线性回归似然函数线性回归误差线性回归目标函数梯度下降求解线性回归目标函数最优解逻辑回归是在线性回归的结果外加一层Sigmoid函数逻辑回归函数逻辑回归似然函数逻辑回归误差逻辑回归目标函数梯度下降求解逻辑回归目标函数最优解...原创 2021-12-08 10:43:53 · 1966 阅读 · 0 评论 -
【案例】贝叶斯
贝叶斯实现拼写检查完整代码import re, collections# 把语料中的词全部拿出来并转变为小写def words(text): return re.findall('[a-z]+', text.lower())# 构建每个词出现的次数字典def train(features): model = collections.defaultdict(lambda: 1) for f in features: model[f] += 1原创 2021-12-22 14:25:29 · 212 阅读 · 0 评论 -
【案例】使用sklearn构造决策树模型
包括决策树原理简介,剪枝策略,集成算法及使用sklearn实现这里只是简单的记录,详细参考:https://www.cnblogs.com/wangleBlogs/p/11131505.html原理简介熵,N为类别个数信息增益信息增益率基尼系数分类回归1.对决策树的理解决策树是一种判别式模型,目的是为了让模型的不确定性降低的越快越好(能够从样本数据的特征属性中,通过简单的决策规则预测目标变量的值),过程包括特征选择、...原创 2021-12-16 16:03:45 · 922 阅读 · 0 评论 -
【案例】聚类算法
KMEANS聚类https://www.cnblogs.com/pinard/p/6164214.html1、简述一下K-means算法的原理和工作流程 随机选择K个样本点作为初始质心 分别计算其他样本到K个质心的距离,对于每一个样本将其划分到与其距离最近的簇内 对于新的簇,计算新的簇中心 重复2,3步,直到簇中心没有移动 2、K-means中常用的到中心距离的度量有哪些? 欧式距离 向量相减平方和开根号 ...原创 2022-01-19 16:43:37 · 1926 阅读 · 0 评论 -
【案例】支持向量机-人脸识别
原理人脸识别原创 2022-01-06 16:36:39 · 559 阅读 · 0 评论