2034丶-CSDN博客

原创聚类案例

import pandas as pdbeer=pd.read_csv('data.txt',sep=' ')# print(bear)#取出四列数据X=beer[['calories','sodium','alcohol','cost']]#导入kmeansfrom sklearn.cluster import KMeanskm=KMeans(n_clusters=3).fit...

2020-05-07 14:26:29 771

原创朴素贝叶斯：文本数据分析

python文本数据分析文本数据停用词在拿到文章后里面有许多词语大量出现，但是不存在实际意义，比如标点符号，比如：一样，一个，一些，一时，一旦，一起等等。。跟文章主要内容没有什么关系。Tf-idf ：关键词提取比如：《中国的蜜蜂养殖》: 进行**词频（Term Frequency，缩写为TF）**统计出现次数最多的词是----“的”“是”“在”----这一类最常用的词（停用词）...

2020-05-06 20:16:47 491

转载每个Kaggle冠军的获胜法门：揭秘Python中的模型集成

集成方法案例集成方法可将多种机器学习模型的预测结果结合在一起，获得单个模型无法匹敌的精确结果，它已成为几乎所有 Kaggle 竞赛冠军的必选方案。那么，我们该如何使用 Python 集成各类模型呢？本文作者，曼彻斯特大学计算机科学与社会统计学院的在读博士 Sebastian Flennerhag 对此进行了一番简述。在 Python 中高效堆叠模型集成（ensemble）正在迅速成为应用机器...

2020-04-29 16:58:05 277

原创机器学习入门之信用卡欺诈案例

信用卡欺诈检测（二分类问题）因为数据的隐私问题，很多指标进行了降维处理，特征已经提取完毕。数据进行分类：属于0类：正常属于1类：异常在数据集中，正常数据大于异常数据。class里面为0的是正样本，1的是负样本。样本不均衡时采用的方法1.过采样让1样本像0样本一样多。2.欠采样（下采样）让0样本像1样本一样少。Amount样本分布差异过大（标准化或者归一化）#Amount...

2020-04-17 00:10:44 538

原创 Tensorflow：验证码识别

验证码识别原理分析验证码是去识别像素，所以在神经网络里面不用分割，一般就是进行整体识别。这个就是一个简单的图片：里面有四个目标值：‘nzpp’四个目标值，假设都是大写，那么每个位置就有26种可能性，就判定每一个目标值在26中可能性里面概率最大的那一个进行输出。然后进行交叉熵损失计算。某个样本 s=-(y_true*log(y_predict))softmax进行比较验证码识别程序...

2020-04-06 18:22:27 391

原创卷及神经网络识别手写数字

目的了解整个API的使用，卷基层，池化层以及数据的整个变化过程。之前写过全连接层识别手写数字的代码。里面介绍过特征值[None,784],目标值[None,10]设计卷积神经网络：**⼀卷积层：**卷积：32个filter, 55，strides1, padding=“SAME”输⼊：[None, 28, 28, 1] 输出：[None, 28,28, 32]激活:[None, 28,...

2020-04-01 22:16:48 116

原创卷积神经网络理解和卷基层结构

卷积神经网络的发展历史神经网络(neural networks)的基本组成包括输入层、隐藏层、输出层。而卷积神经网络的特点在于隐藏层分为卷积层和池化层(pooling layer，又叫下采样层)。卷积层：通过在原始图像上平移来提取特征，每一个特征就是一个特征映射池化层：通过特征后稀疏参数来减少学习的参数，降低网络的复杂度，（最大池化和平均池化）卷积层的零填充卷积核在提取特征映射...

2020-03-27 22:53:10 1205

原创简单的神经网络实现实现手写数字识别

Mnist数据集神经网络分析获取数据from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True)准确性计算1、equal_list = tf.equal(tf.argmax(y, 1), tf.argmax...

2020-03-10 23:28:01 1241

原创神经网络结构

神经网络的发展定义：在机器学习和认知科学领域，人工神经网络（artificial neural network，缩写ANN），简称神经网络（：neural network，缩写NN）或类神经网络，是一种模仿生物神经网络的结构和功能的计算模型，用于对函数进行估计或近似。神经网络的种类：基础神经网络：单层感知器，线性神经网络，BP神经网络，Hopfield神经网络等进阶神经网络：玻尔兹...

2020-03-10 22:11:09 300

原创神经网络：感知机模型

感知机有n个输入数据，通过权重与各数据之间的计算和，比较激活函数结果，得出输出应用：很容易解决与、或、非问题一个感知机测试网站：http://playground.tensorflow.org/#activation=sigmoid&regularization=L2&batchSize=10&dataset=circle&regDataset=reg-p...

2020-03-10 20:08:45 353

原创 Tensorflow：TFRecords 分析与存储

TFRecords1.TFRecords是Tensorflow设计的一种内置文件格式，是一种二进制文件，它能更好的利用内存，更方便复制和移动2.为了将二进制数据和标签(训练的类别标签)数据存储在同一个文件中·文件格式：*.tfrecords·写入文件内容：Example 协议块（类字典格式）TFRecords存储1、建立TFRecord存储器tf.python_io.TFReco...

2020-03-10 11:41:23 125

原创 Tensorflow：二进制文件读取分析

图片的存储，计算类型存储：uint8（节约空间）矩阵计算：float32（提高精度）二进制文件读取CIFAR-10（比赛数据）二进制数据读取import tensorflow as tfimport os# 定义cifar的数据等命令行参数FLAGS=tf.app.flags.FLAGStf.app.flags.DEFINE_string('cifar_dir','./狗/'...

2020-03-06 17:05:38 211

原创京东全网爬虫项目

一.确定项目需求1.1 抓取首页的分类信息·抓取数据：各级分类的名称和 url0011.2 商品信息的抓取·抓取：商品名称，商品价格，商品评论数量，商品店铺，商品促销，商品选项，商品图片和URL002二.开发环境·平台：linux·开发语言：python3·开发工具：pycharm·技术选择：由于全网爬虫，抓取页面非常的多，为了提高抓取的速度，选择使用scrapy框架+...

2020-03-01 22:46:28 7783 1

原创 asyncore斗鱼弹幕抓取

斗鱼弹幕抓取斗鱼api网上开放的。数据发送和接收流程：先发送长度，在发送数据，接收数据就是先接收长度，后接收数据。

2020-01-09 00:20:32 353

原创 Tensorflow：图片文件读取

图像读取每个图片由像素组成。图片的特征值就是像素。下面图片一个彩色一个黑白，这两张图片的像素也是不一样的，那么特征值也是不一样的。黑白图片：单通道图片，一个像素点只有一个值，灰度值在[0-255]之间彩色图片：三通道（RGB）图片，一个像素点由三个值组成图片数字化三要素三要素与张量的关系图片识别的时候每一个样本必须保持相同的特征数量图片统一特征的数量（像素值一样）图像基...

2019-12-26 13:41:54 195

原创 Tensorflow：文件读取流程和CSV文件读取

Tensorflow文件读取文件读取流程如果读取ABC三个文件：1.将文件和文件路径乱序或者顺序的放入队列当中，构造一个文件队列。构造文件阅读器，读取队列内容，应为文件格式繁多，默认读取一个样本比如图片文件：按一张一张读取，cv文件：读取一行，二进制文件：指定一个样本的bytes读取。需要多次读取3.进行解码操作转换（decode），转换出来的也是一个样本。4.批量处理，比如读...

2019-12-26 11:11:26 421

原创 Tensorflow：顺序队列与IO操作

顺序队列与IO操作CPU负责TensorFlow的计算，IO负责读取文件由于速度上的差异，通常做法是：主线程进行模型训练，子线程读取数据，二者通过队列进行数据传输相当于主线程从队列读数据，子进程往队列放数据线程与队列在使用TensorFlow进行异步计算时，队列是一种强大的机制。一个简单的例子。先创建一个“先入先出”的队列（FIFOQueue），并将其内部所有元素初始化为零。然后，构建...

2019-12-25 21:14:39 161

原创 tensorflow：实现一个线性回归案例

Tensorflow线性回归开发流程：1.准备好相关数据的特征值和目标值2.建立模型，随机初始化准备一个权重w，一个偏置b，模型的参数必须用变量去命名3.求损失函数，还有相关的均方误差4.梯度下降去优化损失过程指定学习率Tensorflow运算API矩阵运算tf.matmul(x, w)平方tf.square(error)均值tf.reduce_mean(error)...

2019-12-25 15:15:02 440

原创 Tensorflow：变量和可视化

变量变量也是一种OP，是一种特殊的张量，能够进行存储持久化，它的值就是张量变量的创建tf.Variable(initial_value=None,name=None)创建一个带值initial_value的新变量assign(value)为变量分配一个新值返回新值eval(session=None)计算并返回此变量的值name属性表示变量名字变量的初始化tf.global...

2019-12-24 13:12:24 189

原创 Tensorflow 张量以及运算

张量张量的阶和数据类型：Tensorflow基本的数据格式一个类型化的N维度数组（tf.Tensor）三部分，名字，形状，数据类型张量的阶张量的数据类型张量的属性：graph 张量所属的默认图op 张量的操作名name 张量的字符串描述shape 张量形状张量的动态形状与静态形状TensorFlow中，张量具有静态形状和动态形状静态形状：创建一个张量或...

2019-12-24 11:59:48 554

原创深度学习：TensorFlow基础（图和会话）

第一个 Tensorflow例子：import tensorflow as tfimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'#实现一个加法运算a=tf.constant(5.0)b=tf.constant(6.0)sum1=tf.add(a,b)with tf.Session() as sess: print(sess.r...

2019-12-24 11:56:32 170

原创 asyncore模块

预备知识asyncore模块介绍这个模块为异步socket的服务器通信提供简单的接口。该模块提供了异步socket服务客户端和服务器的基础架构。相比python原生的socket api，asyncore具有很大的优势，asyncore对原生的socket进行封装，提供非常简洁优秀的接口，利用asyncore覆写相关需要处理的接口方法，就可以完成一个socket的网络编程，从而不需要处...

2019-12-18 09:49:34 266 1

原创深度学习：Tensorflow基础介绍以及安装

深度学习应用场景：深度学习，如深度神经网络、卷积神经网络和递归神经网络已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。机器学习深度学习算法分类：神经网络（简单）神经网络（深度），图像：卷积神经网络，自然语言处理：循环神经网络深度学习框架：认识TensorflowTensorflow特点1、真正的可移植性...

2019-12-13 09:41:48 232

原创机器学习：非监督学习算法：K-means

非监督学习：K-means假设通过上面的图片人物穿着，来判断一个人的类别。把有相近的特征的人分为一个类别。K-means 聚类先将数据进行划分，全部为蓝色，然后通过聚类划分为三个类别。理解k-means：图：假设这个数据有两个特征x1，x2，对这一群数据进行聚类，这时候就有一个K值（把数据划分为几个类别），根据K值进行聚类。步骤：1.随机在数据当中抽取三个样本，当做三个类别...

2019-12-12 21:47:23 360

原创机器学习：逻辑回归

逻辑回归：线性回归的式子作为的输入（二分类问题）逻辑回归应用场景：（也能得出概率值）广告点击率判断用户的性别预测用户是否会购买给定的商品类判断一条评论是正面的还是负面的是否垃圾邮件，金融诈骗，虚假账号…线性回归到逻辑回归：通过sigmoid函数观察sigmoid函数得出，将输入转为0-1的值，正好是概率值。逻辑回归公式：e：2.71z=回归的结果输出：[0,1]区间的概...

2019-12-12 09:53:30 419

原创机器学习：模型的保存与加载

模型的保存和加载API：from sklearn.externals import joblib保存：joblib.dump(rf, ‘test.pkl’)加载：estimator=joblib.load（‘test.pkl’)例子：from sklearn.datasets import load_bostonfrom sklearn.linear_model import ...

2019-12-11 09:42:30 583

原创机器学习：过拟合和欠拟合：岭回归

过拟合与欠拟合过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合：一个假设在训练数据上不能获得更好的拟合，但是在训练数据外的数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)模型复杂度数据的特征和目标值之间的关系，不仅仅是线性关系。欠拟...

2019-12-10 15:07:51 521

原创机器学习：线性回归

线性回归预测结果与真实值是有一定的误差一个特征：单变量多个特征：多变量预测结果和真实值肯定存在偏差损失函数(误差大小)如何去求模型当中的W，使得损失最小（目的是找到最小损失对应的W值）：最小二乘法之正规方程：通常方法：最小二乘法之梯度下降：我们以单变量中的w0,w1为例子：理解：沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后更新W值使用：面对训练数据...

2019-12-10 14:31:28 166

原创机器学习：线性回归定义和矩阵的运算

回归算法-线性回归定义和矩阵的运算回归问题的判定：目标在一个区间是连续型的应用场景比如说：房价预测，销售额的预测，贷款额度预测…假设如图：从图中我们可以看到，房子面积越大，价格越贵，就像一条直线，我们称之为线性关系。单个特征线性方程：y=kx+b多个特征线性方程：k1房子面积+k2房子位子+k3房子年龄线性关系模型试图学得一个通过属性的线性组合来进行预测的函数：f(x)=w_1...

2019-12-10 11:28:31 493

原创机器学习：随机森林（集成学习方法）

集成学习方法-随机森林集成学习方法：集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。随机森林：定义：在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林建立多个决策树过程：学习算法根据下列算法而建造每棵树：...

2019-12-10 10:02:44 432

原创机器学习：决策树的划分依据

决策树的划分依据之一信息增益特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度信息熵的计算：条件熵的计算：注：C_k表示属于某个类别的样本数例子：结论：决策树的分类依据之一：信息增益常见其他决策树使用的算法：ID3信息增益...

2019-12-05 10:33:16 2610

原创机器学习：决策树之信息论基础（信息熵）

决策树之信息论基础决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法理解：决策树例子：银行贷款数据这里给了一个例子我们怎么去判断有个用户是否可以给贷款。我们可以这样划分：但是决策树的实际划分是：我们有一个最主要的划分点。那就是房产。再看一个例子：了解信息的度量和作用假设这里有32支球队，我们没有任何信...

2019-12-04 22:28:29 834

原创机器学习：模型选择与调优

模型选择与调优1、交叉验证2、网格搜索交叉验证（为了让被评估的模型更加准确可信）之前把数据分为训练集和测试集，交叉验证为了让模型更加可信，所有这时候我们会把训练集分为训练集和验证集，在训练集中训练，然后通过验证集看预测模型的精度。然后求四个模型的准确率的平均值这里分成了四等分，就是4折交叉验证交叉验证过程：交叉验证：将拿到的数据，分为训练和验证集。以下图为例：将数据分成5份，其...

2019-12-04 21:54:06 443

原创机器学习：分类模型的评估

分类模型的评估比如说评判两个小米手机和iPhone手机是否好用，对于一个东西进行评判的时候，就需要使用分类模型评估。混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)比如说对猫和狗这个二分类问题，正例：猫，反例：不是猫的。这两者之间就构成了混淆矩阵。预测出是猫就是真正例（...

2019-12-04 21:13:41 212

原创机器学习：朴素贝叶斯算法

朴素贝叶斯算法：特征独立（常用在文档分类）对类别进行划分。预测一个类别在所有类别中的概率，然后根据大小进行划分。比如说：如图概率基础：概率定义为一件事情发生的可能性扔出一个硬币，结果头像朝上某天是晴天联合概率和条件概率联合概率：包含多个条件，且所有条件同时成立的概率记作：P(A,B)条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率记作：P(A|B)特性：P(A1,...

2019-12-04 16:27:28 269

原创机器学习：分类算法（离散型）K-近邻算法

K-近邻算法这里有一张图片，我们可以通过一些条件或者特征找到相近的电影类型。这是简单的k-近邻算法的思想分类算法-k近邻算法(KNN)定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种分类算法重点：计算距离公式两个样本的距离可以通过如下公式计算，又叫欧式距离...

2019-12-02 16:18:50 1832

原创机器学习：转换器与估计器

转换器与估计器转换器：fit_transform():输入数据直接转换fit（）：输入数据但不做事情，只计算出相关的平均值方差等transform（）：进行数据转换特征工程的步骤：1、实例化 (实例化的是一个转换器类(Transformer))2、调用fit_transform(）对于文档建立分类词频矩阵，不能同时调用估计器：机器学习算法的实现在sklearn中，估计器(esti...

2019-12-02 14:05:47 954

原创机器学习：数据的划分和介绍

数据集划分机器学习一般的数据集会划分为两个部分：训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效sklearn数据集划分API：sklearn.model_selection.train_test_split-sklearn.datasets加载获取流行数据集-datasets.load_*()获取小规模数据集，数据包含在datasets里-datas...

2019-11-29 16:05:38 964

原创机器学习：算法简介以及开发流程

算法以及开发流程明确的几点问题：1.算法是核心，数据和计算是基础2. 找准定位，知道算法原理，学会运用。3.学会分析问题，使用机器学习算法的目的，在什么情况下运用。4.掌握算法的基本思想，学会对问题用相应的算法解决。5.学会利用库和框架解决问题。算法判别依据数据类型判断：离散型数据：分类：由记录不同类别个体的数目所得到的数据，又称计数数据，所有这些数据全部是整数，而且不能在细分，...

2019-11-29 14:55:42 1712

原创机器学习：降维案例（探究用户物品类别喜好细分降维）

探究用户物品类别喜好细分降维数据：数据是在kaggle中找的。https://www.kaggle.com/c/instacart-market-basket-analysis/dataproducts.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv ...

2019-11-29 11:40:20 1072 2

空空如也

空空如也