ClintonZero-CSDN博客

原创天池竞赛-资金流入流出预测总结

天池竞赛-资金流入流出预测总结1.竞赛背景2.竞赛思路对数据集进行分析3.传统方法使用xgboost进行预测4.深度学习方法面对时序问题使用LSTM一般都具有较好的效果，LSTM的优势在于1.有效的解决的梯度消失的问题2.，下面对数据集进行预处理将(条件进行处理),对网络当中的…参数进行设置，构建模型，开始训练。结果判断...

2020-08-20 22:50:25 1049

原创文本分类—机器学习方法

##不好意思最近事情有点多下次在完善一下导入常用包import randomimport jiebaimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn....

2019-03-09 22:52:07 710 1

原创 task3_TF-IDF_互信息

基于 TF-IDF 算法的关键词抽取1.什么是TF-IDF呢?TF(Term Frequency)词频IDF(Inverse Document Frequency)逆文档频率,表示一个词的大小与常见词的反比假如我们需要通过计算机来找到文本的关键词如何查找呢，一般是统计出现最高词语的频率也就是TF词频。但是在统计词语的过程中通常会遇到如下问题—最高出现的词汇可能是”停用词”，如”的”，”是”...

2019-03-07 20:11:06 435

原创文本特征提取

在自然语言处理中我们把文本数据变成向量数据，在向量数据中我们可以得到很多来自于文本数据当中的语言特性，这种方式叫做文本表示或文本特征构造。文本特征的通用信息源文本分类问题当中的对象词:在英文文本处理当中面对的是单个词组用空格隔开容易区分，在中文文本当中需要通过特定的词库如python中的jieba、中科院、清华、哈工大的一些分词工具来进行分词处理。在处理词类时一般关注词性、词与上下文之间是...

2019-03-05 20:36:57 25959 2

原创 ROC、PR曲线、AUC值

ROC曲线ROC曲线就是由一系列的阈值threshold下的（伪阳性，真阳性）决定的一个个坐标点连接而成的，一般用于二分类模型比较横轴FPR:1-TNR,1-Specificity，FPR越大，预测正类中实际负类越多。纵轴TPR：Sensitivity(正类覆盖率),TPR越大，预测正类中实际正类越多。图中实线为ROC曲线，线上每个点对应一个阈值。AUC:ROC曲线下面的面积，介于0....

2019-03-03 20:37:06 1856

原创精确率、召回率、准确率

精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。其实就是分母不同，一个分母是预测为正...

2019-03-03 20:09:41 551

原创基于LSTM对IMDB数据集进行情感分析

IMDB情感分析第一步导包from keras.preprocessing.text import Tokenizerfrom keras.models import Sequentialfrom keras.layers.core import Dense,Activationfrom keras.layers.embeddings import Embeddingfrom kera...

2019-03-02 20:49:19 2674 1

原创恒等函数和 softmax 函数

恒等函数会将输入按原样输出，对于输入的信息，不加以任何改动地直接输出。因此，在输出层使用恒等函数时，输入信号会原封不动地被输出。另外，将恒等函数的处理过程用之前的神经网络图来表示的话，则如图和前面介绍的隐藏层的激活函数一样，恒等函数进行的转换处理可以用一根箭头来表示。softmax 函数公式如下exp(x) 是表示 ex 的指数函数（e 是纳皮尔常数 2.7182 …）。式（3.10）...

2019-02-23 13:42:10 2253

什么是神经网络用图来表示神经网络的话，如图我们把最左边的一列称为输入层，最右边的一列称为输出层，中间的一列称为中间层。中间层有时也称为隐藏层。“隐藏”一词的意思是，隐藏层的神经元（和输入层、输出层不同）肉眼看不见。另外，本书中把输入层到输出层依次称为第 0 层、第 1 层、第 2 层（层号之所以从 0 开始，是为了方便后面基于 Python 进行实现）。图 3-1 中，第 0 层对应输入层，...

2019-02-23 13:39:25 694

原创感知机

感知机感知机是什么呢?感知机是一个接受输入多个信号输出一个信号的模型，如图x1w1+x2w2其中输出只有两个值一个是0一个是1，当x1w1+x2w2输出大于一个阈值的时候输出1，小于则输出0感知机的实现基于python实现逻辑电路实现AND_gate现在让我们考虑用感知机来解决简单的问题。这里首先以逻辑电路为题材来思考一下与门（AND gate）。与门是有两个输入和一个输出的门电...

2019-02-23 02:20:36 405

原创基于KenLM的句子打分项目

KenLM工具包基于统计语言模型当中的训练语料库方法在这里介绍一下KenLM模型KenLM基本介绍工具介绍:https://kheafield.com/code/kenlm/github地址:https://github.com/kpu/kenlm#kenlm下载地址:http://kheafield.com/code/kenlm.tar.gz在linux当中使用KenLM工具包1....

2019-02-20 20:27:41 3334 8

原创文本表示

文本表示文本表示，简单的说就是不将文本视为字符串，而视为在数学上处理起来更为方便的向量。而怎么把字符串变为向量，就是文本表示的核心问题。文本表示的好处是什么?根本原因是计算机不方便直接对文本字符串进行处理，因此需要进行数值化或者向量化。便于机器学习。不仅传统的机器学习算法需要这个过程，深度学习也需要这个过程。良好的文本表示形式可以极大的提升算法效果。文本表示分为哪几种呢?(基于类型...

2019-02-18 14:50:52 2666

原创关键词提取

基于 TF-IDF 算法的关键词抽取1.什么是TF-IDF呢?TF(Term Frequency)词频IDF(Inverse Document Frequency)逆文档频率,表示一个词的大小与常见词的反比假如我们需要通过计算机来找到文本的关键词如何查找呢，一般是统计出现最高词语的频率也就是TF词频。但是在统计词语的过程中通常会遇到如下问题—最高出现的词汇可能是”停用词”，如”的”，”是”...

2019-02-18 03:06:25 1533

原创常见的英文文本处理步骤

常见的英文文本处理流程中都包含哪些步骤1.导入相应的类库import nltkfrom nltk import word_tokenize, sent_tokenize2.导入数据corpus = open(‘数据路径’,‘r’).read()3.对文本进行断句处理sentences = sent_tokenize(corpus)4.对含有的句子列表进行分词处理tokenized...

2019-02-18 03:04:16 3555

原创语言模型

语言模型语言模型在自然语言处理当中是用于计算一个句子的概率，如果一个句子表达的清晰度强那么概率值高，如“武松打死了老虎”与“老虎了死武松打”前者概率值就高于后者，前者出现概率更高。联合概率链规则在一句话当中每个词之间相互依赖概率统计公式为但在现实情况中由于计算量过大所以我们一般不会计算所有词组之间的相互依赖关系。如在垃圾邮件分类问题中我们可以只考虑每个句子当中词的前后之间的依赖关系，我...

2019-02-18 03:01:45 1192

原创自然语言处理总概括

自然语言处理自然语言处理是什么自然语言处理(Natural Language Process)就是利用计算机来处理人类语言的学科，属于计算机与语言学的交叉学科。自然语言处理有哪些技术大致包括如下技术:1.分词(Word Segmentation或Word Breaker，WB)在英文文本当中每个词之间都有间隔好分，但在中文文本当中一句话之间每个词是没有间隔的，所以需要对一个句子当中每个...

2019-02-14 20:40:03 9068

原创卡方分布

卡方分布主要有两个作用其中一个是检验拟合优度，另外一个作用是检验变量之间的相关性拟合优度检验依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异，从而达到从分类变量进行分析的目的。如何观察显著差异呢?用卡方分布进行检验为单尾检验，右尾被作为拒绝域。则通过查看检验统计量是否位于右尾的拒绝域以内，可以通过期望分布得到的结果的可能性来...

2019-02-01 19:48:50 11610

原创假设检验

批判性思维—假设检验什么是假设检验?举例:在电视剧当中如狄仁杰、白夜追凶、唐人街探案当中判案电视剧中，警察一般是假设嫌疑人无罪的情况然后去找证据，根据证据来逐一证明他有罪。新研发的药物，...

2019-01-30 20:22:11 1127

原创中心极限定理

什么是中心极限定理样本均值:从总体中抽取一定大小的样本的均值标准误差:样本均值的标准差等于总体均值的标准差除以样本容量的平方根。1.在一个总体中无论成什么分布情况，在总体中样本均值都会大约成正态分布的情况，而且样本均值与总体均值相同，标准差为测试地址:http://onlinestatbook.com/stat_sim/sampling_dist/index.html将总体改成随机分布...

2019-01-28 17:09:46 4557

原创线性回归模型

监督学习:通过标注数据进行学习的方法无监督学习:当一组数据很难获取标签的时候采用无监督学习，一般采用的方法是聚类分析。损失函数:一种衡量指标，用于衡量模型的预测偏离其标签的程度，在求解最优化问题的时候一般通过损失函数来对模型参数进行评估。线性回归:一种通过属性的线性组合来进行预测的线性模型，其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。方差:表示一...

2019-01-28 14:21:18 3569

原创机器学习概念整理

有监督学习:通过标注数据进行学习的方法，就叫做有监督学习无监督学习:一组数据中只有样本没有标签，通过数据的特征进行学习的方法叫做无监督学习泛化能力:算法的鲁棒性，对未知样本数据的适应能力。方差:表示数据的离散程度过拟合:一个训练好的模型中训练集上指标很好而在测试集上表现不好，解决方法:减少特征、增加数据量欠拟合:模型在训练集上指标不好并且在测试集上表现也不好，解决方法:增加特征、增加数据...

2019-01-27 00:06:39 394

原创统计学知识点梳理问题

箱形图:https://blog.csdn.net/Dulpee/article/details/86660905正态分布:https://blog.csdn.net/Dulpee/article/details/86662035

2019-01-26 23:23:10 550

原创统计学知识整理—正态分布

正态分布1.什么是正态分布?正态分布:若随机变量X服从一个数学期望为μ、方差为σ^2 的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。记作X~N(μ,σ^2) ，读作X服从N(μ,σ^2)当μ = 0,σ = 1时的正态分布是标准正态分布。正态分布特点:越胖代表离中趋势越明显，越高代表集中趋势越明显哪些实际情况服从正态...

2019-01-26 23:11:53 15715

原创统计学知识整理—箱形图

箱形图1.什么是箱形图?用作显示一组数据分散情况资料的统计图，主要通过数据中最大值、最小值、中位数、四分位数来反应数据分散程度。2.如何绘制箱形图?import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline# 箱型图# 创建数据data = pd.DataFra...

2019-01-26 21:15:10 4553

原创 Keras实现CNN分类

5.Keras实现CNN分类这里我们应用另外一个内置数据集Cifar-10，该数据库具有50,000个32*32的彩色图片作为训练集，10,000个图片作为测试集。图片一共有10个类别。按照上面三模块代码第一模块准备数据集1导入数据集from keras.datasets import cifar10(x_train,y_train),(x_test,y_test) = cifar10...

2018-12-08 11:03:08 2152

原创 Keras实现手写数字识别

4.Keras—手写数字识别Keras内置了一些数据集如mnist、cifar10、cifar100下面我们用keras来跑一个手写数字识别项目MNIST，我们按照前面讲的三模块构建网络法第一模块准备数据集1导入数据集#导入mnistfrom keras.datasets import mnist(x_train,y_train),(x_test,y_test) = mnist.l...

2018-12-08 11:01:19 914

原创 Keras函数式模型

3.Keras函数式模型使用详解Keras函数式模型是用户定义多输出模型、非循环有向模型或具有共享层的模型等复杂模型的途径。一句话，只要你的模型不是类似VGG一样一条路走到黑的模型，或者你的模型需要多于一个的输出，那么你总应该选择函数式模型。函数式模型是最广泛的一类模型，序贯模型只是函数式模型的一种特殊情况。由于序贯模型是特殊情况那下面我们由简单的序贯模型开始，看函数式模型如何完成全连接网络...

2018-12-08 10:59:01 440

原创 Keras序贯模型

2.序贯模型序贯模型(Sequential Model)是多个网络层的线性堆叠，也就是”一条路走到黑”。但是不适合网络之间穿插情况或者多输入多输出情况。序贯模型有两种方式构建网络2.1简单的汉堡式叠法可以通过Sequential模型传递一个layer的list来构造序贯模型。#两种方式1.汉堡生成model = Sequential([ Dense(32,input_dim=7...

2018-12-08 10:55:51 1210

原创 Keras简介

1.Keras工具库简介1.1keras简介今天给大家讲的是keras，keras现在是一个非常流行的工具库，包括tensorflow已经把keras合并到了自己的主代码当中了，大家可以直接tf.keras就可以直接调用其中的工具库了。单独讲keras的原因是因为keras有他独特的应用场景如实验室、数据竞赛等小型环境中，使用keras,工程师们可以将更多时间花在设计网络模型上而不是codin...

2018-12-08 10:53:06 5582

原创 ASM、AAM算法介绍

概述下面给大家介绍一下人脸关键点检测之ASM、AAM模型，人脸关键点检测主要是在人脸图像中定位出关键位置如脸部轮廓、眉毛、眼睛、鼻子、嘴巴等，是人脸识别中重要的基础环节，应用场景主要有人脸姿态矫正、3D人脸重建、表情识别、脸型识别等。人脸关键点标注图:人脸关键点检测的算法大致有如下几个，ASM主动形状模型、AAM主动表观模型、CLM局部约束模型、CPR级联姿态回归模型之后就是深度学习，本...

2018-12-08 10:47:21 7477 2

原创 urllib库介绍

这节我们开设新的模块，也就是爬虫基础知识讲解，大家如果没学过python、前端基本知识请参考小白基础模块。接下来我们先来了解一下网络爬虫的工作过程1 网络爬虫工作过程以通用爬虫为例，如果不知道什么是通用爬虫去小白基础篇第一节学习。第一步我们先找到自己想要获取数据的地址路径也就是URL第二步将URL放入待抓取URL队列第三步读取待抓取URL队列中的URL，解析它的DNS，并且得到服务器的I...

2018-12-07 21:01:47 5815

原创 Fiddler介绍

Fiddler 是一种常见的抓包分析软件，通常我们可以利用 Fiddler 详细地对 HTTP 请求进行分析，并模拟对应的 HTTP 请求。打开百度搜索“Fiddler4”进行下载，或者搜索https://www.telerik.com/download/fiddler/fiddler4，之后会自动下载双击FiddlerSetup.exe即可完成安装，安装后在开始点开Fiddler4进行...

2018-12-07 20:58:17 276

原创抓包工具介绍

由于是小白教学可能大家连chrome浏览器都没有安装，大家可以自行百度一下安装chrome浏览器，身边很多朋友用什么UC浏览器、360浏览器、QQ浏览器其实都是基于chrome内核。Chrome抓包工具Chrome 开发者工具是一套内置于 Google Chrome中的Web开发和调试工具，可用来对网站进行迭代、调试和分析。对着网页右键->检查(N)。然后就可以打开开发者选项。以下用图片...

2018-12-07 20:57:13 1260

原创 Cookie介绍

大家之前用浏览器肯定遇到过这样一种情况，登录一个网站之后在之后的几天之内再次进入相同的网站会自动登录，网站会记住你的账户密码，为啥?接下来我们就来聊聊Cookie。在介绍之前讲个小案例，假如我去理发店理发，理发师最喜欢说的一句话就是”烫一下、染一下之类的然后叫你办卡”，今天我们先来聊聊办卡的事情。理发店办卡方式一般如下——给你一张会员卡，每次理完发付钱的时候都会叫你出示会员卡之后理发店自己有一个...

2018-12-07 20:55:35 923

原创 Http协议

HTTP 协议（HyperText Transfer Protocol，超文本传输协议）是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效，减少网络传输。它不仅保证计算机正确快速地传输超文本文档，还确定传输文档中的哪一部分，以及哪部分内容首先显示（如文本先于图形）等，网络爬虫主要就是与http协议打交道。Https协议HTTPS协议：是HTTP协议的加密版本，在HTT...

2018-12-07 20:53:07 425

原创 web基础&常用工具包

在正式进入爬虫知识学习之前先给大家看一张图片。这张图片是网络爬虫的基础知识大全，可能不算全哈哈，不过如果学了这么多也应该够用。大家先仔细观摩一波，红旗部分的属于web前端基础知识，urllib除外(随便看看也行，最好保存到手机里，我以前就拿学习路线当壁纸的感觉可以督促学习哈哈)在这一节假设大家已经有了python基础，所以老司机要正式开车啦…W3C标准W3C，即万维网联盟，是 Web 技术...

2018-12-07 20:49:13 580

原创先修知识

上节回顾:上一节主要讲了爬虫基本概念、4大类型大家如果不清楚要去回顾哈由于本门课程将以python为主的爬虫项目介绍，所以大家需要对编程基础、python基本语法进行系统性学习。为什么选择python呢?我们拿几门语言来进行对比1.Java：生态圈很完善，是Python爬虫最大的竞争对手。但是Java语言本身很笨重，代码量很大。重构成本比较高，任何修改会导致代码大量改动。爬虫经常要修改采集代码...

2018-12-07 20:45:14 387

原创网络爬虫

1.什么是网络爬虫网络爬虫是按照一定规则自动的抓取万维网信息的程序或脚本。通俗理解的话网络爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、抓取特定数据，然后使用一定规则提取有价值的数据。网络爬虫按照功能来分类的话主要分为四类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。通用网络爬虫通用爬虫又称全网爬虫，爬行对象从一些种子 URL 扩充到整个 Web，通用爬虫是搜索引擎...

2018-12-07 20:41:58 3580

翻译机器学习常用术语

机器学习术语表本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。AA/B 测试 (A/B testing) 一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量...

2018-06-27 19:30:47 2228

原创颜值打分实战

1概述随着计算机视觉的迅速发展以及人脸识别技术的成熟, 人脸颜值测定受到越来越多的关注和研究。但话说回来，即使人工来测定，大家也口味各异，御姐萝莉各有所爱。计算机又岂能判断美丑呢？实际上科学家研究过人脸的美丽程度，并一直在开发相对应的”颜值算法”。人脸的美丽吸引力可以通过对人脸图像进行定量化的特征分析和特征表达,通过采取合适的机器学习算法,使得机器可对人脸美丽吸引力这个概念进行学习而得到可量化...

2018-06-27 19:30:05 14568

空空如也

空空如也