就从今天开始_ll-CSDN博客

转载图算法：概览

上一篇博文中，我们已经对图数据库基础作了分享，介绍了图和图数据库的基本概念，今天我们的主题是：图算法。本篇博文的主要内容来源于 O’Reilly 系列的《GraphAlgorithms》，作者 Amy E. Hodler & Mark Needham。网址：https://learning.oreilly.com/library/view/graph-algorithms-/978...

2019-09-04 12:22:08 669

一. Pagerank介绍PageRank算法以前就是Google的网页排序算法。PageRank算法，对每个目标网页进行附上权值，权值大的就靠前显示，权值小的就靠后显示。PageRank算法就是给每个网页附加权值的。PageRank算法借鉴学术界论文重要性的评估方法：谁被引用的次数多，谁就越重要。注：PageRank算法不单单是按照“被索引数”来给网页付权值的，用PR值表示每个网页被Page...

2019-09-04 00:06:10 807

转载图论经典算法

一.问题类https://www.cnblogs.com/wushaogui/p/9222828.html1.路径问题柯尼斯堡七桥问题：在所有桥都只能走一遍的前提下，如何才能把这个地方所有的桥都走遍？哈密顿回路问题：哈密顿图是一个无向图,由指定的起点前往指定的终点，途中经过所有其他节点且只经过一次。最小生成树问题：有一个有权无向图,找到路径把所有顶点连起来,...

2019-09-03 22:09:51 1084

转载 networkx功能汇总

转载：https://www.jianshu.com/p/e543dc63454f目录创建一个图节点边查看图上点和边的信息图的属性设置点的属性设置边的属性设置不同类型的图（有向图Directed graphs , 重边图 Multigraphs）图的遍历图生成和图上的一些操作图上分析图的绘制1. 创建一个图import networkx ...

2019-09-03 20:36:41 1782

转载 RANSAC随机采样一致性算法

RANSAC随机采样一致性算法RANSAC算法的输入是一组观测数据（往往含有较大的噪声或无效点），它是一种重采样技术（resampling technique），通过估计模型参数所需的最小的样本点数，来得到备选模型集合，然后在不断的对集合进行扩充，其算法步骤为：随机的选择估计模型参数所需的最少的样本点。估计出模型的参数。找出在误差 ϵϵ 内，有多少点适合当前这个模型，并将这些点标记为模型内点如果内...

2018-04-28 10:22:16 2432

转载 Python datetime 模块之timedelta

原文地址：http://blog.csdn.net/xinxing__8185/article/details/48022401timedalte 是datetime中的一个对象，该对象表示两个时间的差值构造函数：datetime.timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, wee...

2018-03-13 11:29:44 799

转载 pandas中关于set_index和reset_index的用法

1.set_indexDataFrame可以通过set_index方法，可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引，drop为False，inplace为True时，索引将会还原为列[python] view p...

2018-03-13 08:52:59 1551

转载 python的时间转换datetime和pd.to_datetime

原文地址：http://blog.csdn.net/lz_peter/article/details/78075909我们在python对数据进行操作时，经常会选取某一时间段的数据进行分析。这里为大家介绍两个我经常用到的用来选取某一时间段数据的函数：datetime( )和pd.to_datetime( )。（一）datetime( ) （1）获取指定的时间和日期。datetime(%Y,%...

2018-03-13 08:48:28 1063

转载 Python time strptime()方法

Python time strptime()方法描述Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。语法strptime()方法语法：time.strptime(string[, format])参数string -- 时间字符串。format -- 格式化字符串。返回值返回struct_time对象。说明python中时间日期格式化符号：%y 两位...

2018-03-12 09:09:10 1924

转载 LSTM算法原理简介及Tutorial

原文地址：http://blog.csdn.net/xuanyuansen/article/details/61913886LSTM算法原理简介及Tutorial一、背景LSTM（Long Short-Term Memory）算法作为深度学习方法的一种，在介绍LSTM算法之前，有必要介绍一下深度学习（Deep Learning）的一些基本背景。目前在机器学习领域，最大的热点毫无疑问是深度学习，从谷...

2018-03-08 20:53:44 1110

转载 Python XGBoost算法代码实现和筛选特征应用

原文链接：https://zhuanlan.zhihu.com/p/33931960?utm_medium=social&utm_source=wechat_sessionXGBoost算法在机器学习中是一个比较重要的算法模块，过去我们经常处理连续特征用GBDT，而现在更多的是用XGBoost，特别是在数据预处理和特征工程上，XGBoost有很多明显的优势。一、算法原理之前一直有听说GBM...

2018-03-02 18:14:21 1432

转载 Holt-Winters模型原理分析及代码实现（python)

引言原文：http://blog.csdn.net/u010665216/article/details/78051192最近实验室老师让我去预测景区内代步车辆的投放量，于是乎，本着“一心一意地输出年富力强的劳动力”这份初心，我就屁颠屁颠地去找资料，然后发现了Holt-Winters模型 , 感觉这个模型可以有，于是就去研究一番，并总结成这篇博客了。原理分析移动平均（The simple mov...

2018-03-02 18:13:03 1231

转载 LightGBM与XGBoost原理

LightGBM和XGBoost都是GBDT的高效实现，所以先简单介绍下GBDT。1. Gradient Boosting Decision Tree提升树的学习优化过程中，损失函数平方损失和指数损失时候，每一步优化相对简单，但对于一般损失函数优化的问题，Freidman提出了Gradient Boosting算法，其利用了损失函数的负梯度在当前模型的值 −[∂L(y,f(xi))∂f(xi)]f...

2018-03-02 18:11:54 7252

原创关于AUC

预测值为正例，记为P（Positive）预测值为反例，记为N（Negative）预测值与真实值相同，记为T（True）预测值与真实值相反，记为F（False）样本中的真实正例类别总数即TP+FN。TPR即True Positive Rate，TPR = TP/(TP+FN)。同理，样本中的真实反例类别总数为FP+TN。FPR即False Positive Rate，FPR=FP/(TN+FP)。...

2018-03-02 10:27:01 770

转载 xgboost论文总结1

介绍原文链接：http://d0evi1.com/xgboost/还可参考https://zxth93.github.io/2017/09/29/XGBoost%E7%AE%97%E6%B3%95%E5%8E%9F%E7%90%86/index.html在解析XGBoost的源码之前，我们先理解下陈天奇在paper《XGBoost: A Scalable Tree Boosting System...

2018-03-01 12:25:48 1692 1

转载预测算法——指数平滑法

目录•1.指数平滑定义及公式•2.一次指数平滑•3二次指数平滑•4.三次指数平滑•5指数平滑系数α的确定1、指数平滑的定义及公式产生背景：指数平滑由布朗提出、他认为时间序列的态势具有稳定性或规则性，所以时间序列可被合理地顺势推延；他认为最近的过去态势，在某种程度上会持续的未来，所以将较大的权数放在最近的资料。基本原理：指数平滑法是移动平均法中的一种，其特点在于给过去的观...

2018-03-01 09:09:36 11013

转载时间序列分析——ARIMA模型

指数平滑法对时间序列上连续的值之间的相关性没有要求。但是，如果你想使用指数平滑法计算出预测区间，那么预测误差必须是不相关的，且必须是服从零均值、方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求，在某种情况下，我们可以通过考虑数据之间的相关性来创建更好的预测模型。自回归移动平均模型（ ARIMA）是最常用的时间序列预测模型。注意：时间序列模型通常适用于做短期预测，即...

2018-02-28 18:07:10 8275

转载 prophet:时间序列预测原理

prophet:时间序列预测原理介绍prophet是Facebook 开源一款基于 Python 和 R 语言的数据预测工具即“先知”。Facebook 表示，Prophet 相比现有预测工具更加人性化，并且难得地提供 Python 和R的支持。它生成的预测结果足以和专业数据分析师媲美。时间序列模型基本模型 y(t)=g(t)+s(s)+h(t)+ϵt这里，模型将时间序列分成3个部分的叠加，其中g...

2018-02-28 18:05:28 2305

转载时间序列挖掘-三次指数平滑法(Holt-Winters)

一、为何这个方法被称为“指数”平滑法？要找出答案，展开它的递推关系式即可知道：从这里可以看出，在指数平滑法中，所有先前的观测值都对当前平滑值产生了影响，但它们所起的作用随着参数的幂的增大而逐渐减小。那些相对较早的观测值所起的作用相对较小，这也就是指数变动形态所表现出来的特性。从某种程度上来说，指数平滑法就像是拥有无限记忆且权值呈指数级递减的移动平均法。二、三次指数平滑法三次...

2018-02-28 18:01:31 10182

转载通俗理解卡尔曼滤波及其算法实现（实例解析）

1．简介(Brief Introduction)在学习卡尔曼滤波器之前，首先看看为什么叫“卡尔曼”。跟其他著名的理论（例如傅立叶变换，泰勒级数等等）一样，卡尔曼也是一个人的名字，而跟他们不同的是，他是个现代人！卡尔曼全名Rudolf Emil Kalman，匈牙利数学家，1930年出生于匈牙利首都布达佩斯。1953，1954年于麻省理工学院分别获得电机工程学士及硕士学位。1957年于哥伦比亚大学获...

2018-02-28 17:26:06 863 1

转载 git常用命令

1) 远程仓库相关命令检出仓库：$ git clone git://github.com/jquery/jquery.git查看远程仓库：$ git remote -v添加远程仓库：$ git remote add [name] [url]删除远程仓库：$ git remote rm [name]修改远程仓库：$ git remote set-url --push[name][newUrl]拉取远...

2018-02-28 14:02:13 135

原创 Git学习笔记

学习途径：廖雪峰博客：https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/0013743256916071d599b3aed534aaab22a0db6c4e07fd0000一、创建版本库repository1. 首先，选择一个合适的地方，创建一个空目录（注意路径一定不能包含中...

2018-02-26 18:17:20 196

转载 Python XGBoost算法代码实现和筛选特征应用

XGBoost算法在机器学习中是一个比较重要的算法模块，过去我们经常处理连续特征用GBDT，而现在更多的是用XGBoost，特别是在数据预处理和特征工程上，XGBoost有很多明显的优势。一、算法原理之前一直有听说GBM，GBDT（Gradient Boost Decision Tree）渐进梯度决策树GBRT（Gradient Boost RegressionTree）渐进梯度回归树是GBDT的...

2018-02-24 18:02:51 5582

转载 GBDT和Xgboost对比

一．GBDT有哪些参数,如何确定树的深度，学习率怎样确定。答：本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中，GradientBoostingClassifier为GBDT的分类类，GradientBoostingRegressor为GBDT的回归类，两者的参数类型相同，我们把参数分为两类，第一类是Boosting框架的重...

2018-02-24 17:05:00 1955 1

转载 python3的内建函数

print(abs(-10)) #取绝对值print(all([0,'a',3])) #如果参数中有一个不为真，就返回False。（非0即真）print(any([0,'a',3])) #如果参数中有一个为真，就返回True#返回一个可打印的对象字符串方式表示，如果是非ascii字符就会输出\x,\u或\U等字符来表示。与python2版本里的repr()是等效的函数print(ascii(...

2018-02-24 17:03:59 349

转载为何工业界多用离散逻辑回归

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；逻辑...

2018-02-22 17:12:05 422

转载 R语言data.table速查手册

原文链接：http://blog.csdn.net/a358463121/article/details/51910062介绍R中的data.table包提供了一个data.frame的高级版本，让你的程序做数据整型的运算速度大大的增加。data.table已经在金融，基因工程学等领域大放光彩。他尤其适合那些需要处理大型数据集（比如 1GB 到100GB）需要在内存中处理数据的人。不过这个包的一些...

2018-02-12 14:57:26 373

转载 R语言-data.table包使用(方便自己使用参考)

R语言-data.table包它的fread函数读取1G的CSV文件才用了20s左右。其他对data.frame的操作，也快了N倍特点data.table(DT)的操作语句类似于SQL，DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列，它更加的灵活多变。符...

2018-02-11 10:14:55 1233

转载 GBDT和Xgboost模型对比总结

一．GBDT有哪些参数,如何确定树的深度，学习率怎样确定。答：本题答案引自http://www.07net01.com/2016/12/1742073.html 在sk-learn中，GradientBoostingClassifier为GBDT的分类类，GradientBoostingRegressor为GBDT的回归类，两者的参数类型相同，我们把参数分为两类，第一类是Boosting框架的重...

2018-02-09 10:24:39 759

转载 Git 在团队中的最佳实践--如何正确使用Git Flow

我们已经从SVN 切换到Git很多年了，现在几乎所有的项目都在使用Github管理, 本篇文章讲一下为什么使用Git, 以及如何在团队中正确使用。Git的优点Git的优点很多，但是这里只列出我认为非常突出的几点。由于是分布式，所有本地库包含了远程库的所有内容。优秀的分支模型，打分支以及合并分支，机器方便。快速，在这个时间就是金钱的时代，Git由于代码都在本地，打分支和合

2018-01-30 22:43:47 175

转载 pandas使用方法

一、生成数据表 1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd122、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name

2018-01-30 22:36:50 531

转载 SparkR初体验

原文地址http://blog.csdn.net/dr_guo/article/details/51377784SparkR初体验 2016年05月11日 20:41:1913072突然有个想法，R只能处理百万级别的数据，如果R能运行在spark上多好！搜了下发现13年SparkR这个项目就启动了，感谢美帝！1.你肯定得先装个sp

2017-10-19 15:33:44 3822

原创如何设置Scala的ide及配置ide

一、下载用于Scala变成的ide"idea"http://www.jetbrains.com/idea/download/download-thanks.html?platform=mac下载Ultimate版本，激活码为：二、下载Scalahttp://www.scala-lang.org/download/直接下载binary版：

2017-10-15 15:57:29 1090

原创 spark环境变量设置方法

第一步，找到spark的路径：输入 sudo -i进入根目录，输入find / -name spark第二步，根目录下输入vim /etc/profile，进入环境变量编辑文件，输入以下内容后保存退出：export SPARK_HOME=/Library/spark-2.2.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin

2017-10-14 23:41:33 12968 5

原创如何更新os系统的java

如何更新os系统的java一、打开terminal二、检查java版本输入java -version三、进入根目录（转换为超级管理员身份）输入 sudo -i四、查找java所在文件夹输入find / -name java | grep jdk五、删除java所在文件夹输入rm -rf /System/Library/Java/JavaVirtualMachin

2017-10-14 19:33:29 416

转载 hive函数_split 字符串分割函数

hive字符串分割函数转自http://blog.csdn.net/lxpbs8851/article/details/18712407split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s)

2017-10-11 16:30:46 1134

转载《Spark官方文档》Spark操作指南

《Spark官方文档》Spark操作指南转载自：原文链接译者：小村长Spark–Quick Start本项目是 Apache Spark官方文档的中文翻译版，致力于打造一个全新的大数据处理平台来满足大数据处理和分析的各个使用场景，本次翻译主要针对对Spark感兴趣和致力于从事大数据方法开发的人员提供有价值的中文资料，希望能够对大家的工作和学习有所帮助。Spar

2017-10-11 16:20:59 1314

转载 xgboost: 速度快效果好的 boosting 模型

xgboost: 速度快效果好的 boosting 模型何通关键词：boosting; Gradient Boosting Machine; xgboost; 数据建模预测本文作者：何通，SupStat Inc(总部在纽约，中国分部为北京数博思达信息科技有限公司）数据科学家，加拿大 Simon Fraser University 计算机学院研究生，研究兴趣为数据挖掘和生物信息学

2017-09-25 15:40:13 899

转载在R中使用XGBoost算法

介绍你知道 XGBoost 算法是一种现在在数据科学竞赛的获胜方案很流行的算法吗?那么，他比传统的随机森林和神经网络算法强在哪里呢？广义上来说，它在效率，准确性，可行性都更有优势（接下来我们将会详细讨论）。在最近的几年中，模型预测已经变得越来越快速和准确了。我记得我曾花费数个小时在为某个模型构建特征工程上，模型却仅仅提升了几个百分点。现在，这些大量困难的问题都被更好的算法所解决。

2017-09-25 15:30:09 1216

转载 GBDT：梯度提升决策树

转载自：http://www.jianshu.com/p/005a4e6ac775 综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。

2017-09-25 15:25:32 291

空空如也

空空如也