自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (3)
  • 收藏
  • 关注

原创 MySQL 字符串截取

MySQL 字符串截取函数:left(), right(), substring(), substring_index()。还有 mid(), substr()。其中,mid(), substr() 等价于 substring() 函数,substring() 的功能非常强大和灵活。1、从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例...

2018-09-30 10:13:17 410

原创 plotly绘制简单图形<10>--金字塔图

为了参照对比,我们一般需要画类似金字塔形状的图表来展示数据,下面我们那一个例子来看一下效果import plotly.plotly as pyimport plotly.graph_objs as goimport numpy as npwomen_bins = np.array([-600, -623, -653, -650, -670, -578, -541, -411,...

2018-09-30 10:00:32 2573

原创 plotly绘制简单图形<9>--十六进制颜色对照表

十六进制颜色对照表

2018-09-29 17:22:25 7865 1

原创 MySQL日期时间函数大全

MySQL日期时间函数大全1、返回单个时间DAYOFWEEK(date)  返回日期date是星期几(1=星期天,2=星期一,……7=星期六,ODBC标准)mysql&gt; select DAYOFWEEK('1998-02-03');   -&gt; 3 WEEKDAY(date)  返回日期date是星期几(0=星期一,1=星期二,……6= 星期天)。 mys...

2018-09-29 10:32:06 238

原创 大数据分析工具

摘要:以下是整理的关于数据分析的最全信息,包括微信大数据分析、数据可视化工具、词频分析工具、舆情分析工具、PPT模板工具、互联网趋势分析工具、在线调查工具、网站分析监测工具、社交媒体监测工具等。微信大数据分析工具新媒体指数:http://www.gsdata.cn清博大数据-新媒体指数(www.gsdata.cn)是新媒体大数据第一平台,为运营新媒体利器!现已开通账号分钟级监测服务...

2018-09-29 09:19:57 6182 1

原创 plotly绘制简单图形<8>--双Y轴设置

我们做数据的时候往往会遇到我们想同时展现两组数据,但是两组数据的量级不一样,那么绘制在一起会导致,数量级小的一组数据的趋势不能明显的看出来,这个时候往往需要建立一个次坐标轴接下来我们看一下怎么用plotly进行实现import plotly.plotly as pyimport plotly.graph_objs as go trace1 = go.Bar( x=[...

2018-09-28 18:56:27 11510 1

原创 plotly绘制简单图形<7>--用plotly画图参数设置

用plotly画图import plotlyimport plotly.graph_objs as goimport plotly.offline as py #设置离线画图#设置第一坐标轴画的条形图trace0 = go.Bar( y=count_unit_2018.index, x=count_unit_2018, #设置图形的颜色外观等 mark...

2018-09-28 14:23:53 15972 1

原创 mysql类型转换及小数点保留问题(cast函数)

在写SQL里面总会遇到数据类型的问题,这里讲一下cast的用法:1、类型转换MySQL 的CAST()函数可用来获取一个类型的值,并产生另一个类型的值cast()函数是一个转换函数,参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。 CAST(value as type);就是CAST(xxx AS 类型) 可以转换的类型是有...

2018-09-27 18:48:22 10686 1

转载 如何用统计学指导自己的生活?

对于搞数据的人来说,不仅要能基于数据技能来某得一点生计,最好也能用来指导自己的生活,比如解答自己生活中的一些困惑,今天就来谈谈笔者的生活统计学,这是第一篇,如果以后有机会再写吧。1、回归平均:我儿子到底能长多高?统计回归效应,也叫“向平均数回归”,是指在进行重复测量时,前测中获得的极高或极低分数会在后测时倾向于向平均值偏移,即随着时间的推移高分者成绩下降,低分者成绩升高,这种自然倾向被称为...

2018-09-27 15:58:20 1145

原创 plotly绘制简单图形<6>--箱线图

箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。普通箱线图import plotly.plotly a...

2018-09-27 13:53:03 5223

原创 GBDT--提升树算法

今天在说一个Boosting的另一个算法GBDT,之前文章说了Adaboost,Adaboost主要是对分类错误的样本提升权重来进行训练数据,而本次要讲的GBDT主要是根据第一轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小。            GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multip...

2018-09-22 17:04:41 556

原创 python_KNN_sklearn包实现

之前说了KNN的算法解读,这次说一下代码的实践本人不是专业的python使用者,所以就不按照KNN的算法写推到代码了,直接运用机器学历里面运用得比较多,而且比较简单的sklearn包scikit-learn(简称sklearn)是目前最受欢迎,也是功能最强大的一个用于机器学习的Python库件。它广泛地支持各种分类、聚类以及回归分析方法比如支持向量机、随机森林、DBSCAN等等,由于其强大...

2018-09-21 18:31:41 7271

原创 KNN算法解读

一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。K近邻是一种基本分类与回归的方法可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。或者,我们判断一个人的人品,只需要观察...

2018-09-21 09:14:07 16706

原创 机器学习的视觉介绍

A visual introduction to machine learning–机器学习的视觉介绍http://www.r2d3.us/visual-intro-to-machine-learning-part-1/文章主要用非常好的视觉效果介绍了机器学习的原理,尤其是决策树的介绍非常好...

2018-09-19 14:36:34 443

原创 数据预处理:变量筛选和变换

变量筛选和变换我们在尽心数据处理中会遇到变量的筛选问题这里我们不是PCA(主成分分析),就是简单的人工变量筛选,比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和变换。1、选择部分变量首先我们看下数据结构定义一个x_col2来存储需要用到的变量名称2、删除部分变量如果我们要用到数据集的大部分数据,我们就可以采取删除其中的几个变量的方法定...

2018-09-19 14:21:27 3272

原创 缺失值处理

缺失值处理之前写过一篇文章缺失值可视化处理–missingno主要介绍了缺失值的查看,今天聊一下,出现了缺失值后我们要做的后续工作,就是缺失值的处理。1、缺失值删除首先附上几个代码data数据集data.isnull()#缺失值判断:是缺失值返回True,否则范围Falsedata.isnull().sum()#缺失值计算:返回每列包含的缺失值的个数data.dropna()#缺失...

2018-09-19 11:49:05 1300

原创 瓦伦达效应:越在意的,就越容易失去

“瓦伦达效应”得名于美国著名的钢索表演艺术家瓦伦达。瓦伦达一直以精彩而稳健的高超演技而闻名,从未出过事故。1978年,73岁的瓦伦达决定,最后走一次钢丝作为告别演出,然后宣布退休。    他将表演地点选在了波多黎各的海滨城市圣胡安。没想到,以前从来没有出过任何差错的瓦伦达这次却彻底失败了——当他刚刚走到钢索中间,仅仅做了两个难度并不大的动作之后,就从数十米高的钢索上摔了下来,当场身亡。    ...

2018-09-03 11:08:15 4417

原创 Adaboost算法及python代码

Adaboost1、算法介绍        AdaBoost是最著名的Boosting族算法,同样也是数据挖掘10大算法之一。是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布实现的,它根据每次训练集之中的每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的...

2018-09-02 14:44:46 2047

Attention Is All You Need论文

"Attention Is All You Need" 论文的详细解读如下: 1. 摘要(Abstract): 论文摘要简要介绍了Transformer模型,一种基于注意力机制的序列到序列学习模型。摘要提到,Transformer摒弃了传统的循环和卷积层,完全依赖于注意力机制来实现输入和输出序列之间的关联。实验结果表明,在翻译质量、并行能力和所需训练时间方面,Transformer优于此前的方法。 2. 引言(Introduction): 引言部分首先回顾了传统的序列到序列模型,特别是基于RNN和CNN的模型,并指出了它们在处理长距离依赖和并行计算方面的局限性。随后,作者介绍了注意力机制,并强调了其在机器翻译等任务中的重要性。最后,作者总结了Transformer模型的主要特点和实验结果,指出其在翻译质量和模型效率方面的优势。 3. 相关工作(Background): 在这一部分,作者简要回顾了与Transformer模型相关的先前工作,包括传统的序列到序列模型、基于注意力机制的模型以及一些优化技术。这些工作为Transformer模型的设计提供了理论基础和实践经验。

2024-07-04

RAG技术知识图谱概览

RAG技术知识

2024-05-22

RNN循环神经网络代码

RNN循环神经网络代码

2024-02-28

回归样本数据(教育年限与收入关系)

回归样本数据(教育年限与收入关系)

2023-01-10

时间序列样例数据(股票数据)

时间序列样例数据(股票数据) 可用于时间序列分析进行测试 时间颗粒度为“天” 包含每一天的开盘价、收盘价、最低值、最高值

2023-01-04

iris鸢尾花数据集下载

鸢尾花数据

2022-01-17

orange中文版.txt

orange中文版

2022-01-17

diabetes_train.txt

糖尿病数据集,主要用于机器学习或者深度学习分类算法,共有9个字段 前8个维变量,最后一个字段为标签,为二分类数据集,当然自己可以转换成ONE-HOT类型

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除