简之的通向技术之路

技术日志
私信 关注
简之
码龄6年
  • 159,390
    被访问量
  • 69
    原创文章
  • 41,612
    作者排名
  • 132
    粉丝数量
  • 毕业院校 上海工程技术大学
  • 目前就职 上海工程技术大学
  • 于 2015-04-04 加入CSDN
获得成就
  • 获得127次点赞
  • 内容获得29次评论
  • 获得558次收藏
荣誉勋章
兴趣领域
  • #算法
    #迁移学习#推荐算法#回归#集成学习#聚类#分类#排序算法#NLP#scikit-learn#TensorFlow#PyTorch
TA的专栏
  • 通向实在之路:数据科学实战
  • 数据结构与算法
    17篇
  • 机器学习
    15篇
  • 大数据
    6篇
  • 数学基础
    8篇
  • 编程语言
    8篇
  • 数据分析
    11篇
  • 计算机系统
    4篇
  • 论文精读
    1篇
  • 深度学习
    5篇
  • 机器学习实战(sklearn/tensorflow)
  • 推荐系统
    2篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

『统计学』第五部分:方差分析和F检验

『方差分析』第四部分的卡方检验是研究类别变量之间的关系,而这一部分的方差分析则是研究类别型自变量与数值型因变量之间的关系,它在形式上是比较多个总体的均值是否相等。从形式上看,方差分析与之前的t检验或z检验区别不大,都是检验均值是否相等,但在比较多个均值时,t检验需要做多次两两比较的假设检验,而方差分析只需要一次,并且方差分析中是将所有的样本信息结合在一起,增加了分析的可靠性。下面我们仍旧从三...
原创
6415阅读
2评论
4点赞
发布博客于 2 年前

『统计学』第四部分:回归分析和卡方检验

回归分析线性回归中的平方误差
原创
2684阅读
0评论
0点赞
发布博客于 2 年前

『统计学』第三部分:假设检验

1、假设检验和p值
原创
915阅读
0评论
1点赞
发布博客于 2 年前

『统计学』第二部分:中心极限定理及其应用

请求
原创
1561阅读
0评论
3点赞
发布博客于 2 年前

『统计学』第一部分:常用概率分布

期望值其实就是总体的均值只是随机变量的总体是无穷的,无法全部求和然后取平均值,于是我们需要用到频率进行加权平均,这同老式的求平均方法其实没有本质区别。二项分布泊松分布...
原创
778阅读
0评论
2点赞
发布博客于 2 年前

如何改善深层神经网络

对于深度学习,模型训练过程中可能会遇到一些问题,这些问题可能出自训练阶段,也可能出自测试阶段。训练阶段的问题主要是模型可能根本就train不出来,测试阶段的问题主要是过拟合的问题。对于不同的问题,我们采用不同的方法解决,解决方法如下图所示:我们分别就训练阶段和测试阶段来看一下具体问题,及其解决方法:(1)训练阶段:如果训练阶段发现模型根本就train不出来,常见的问题就是梯度消失或梯度爆炸...
原创
927阅读
0评论
2点赞
发布博客于 2 年前

机器学习算法的一般结构

1. 算法框架跟把大象放进冰箱里一样,李宏毅老师将机器学习方法总结为三步,如下:总结来说,就是如下三步:Define a set of function(Model)Goodness of function(Objective Function)Pick the best function(Gradient Descent)所有机器学习算法都满足这个架构,所以提到一种算法,我们就...
原创
516阅读
0评论
0点赞
发布博客于 2 年前

SVM的梯度下降解释及其算法比较

首先说明一点,SVM的算法原理和其它机器学习算法是一致的,其中引入了两个最核心的概念就是hinge loss和kernel trick,这篇本章主要结合这两个部分说明SVM。...
原创
3489阅读
0评论
4点赞
发布博客于 2 年前

推荐系统之YouTube推荐算法中的召回策略

YouTube深度学习推荐系统论文
原创
1165阅读
0评论
0点赞
发布博客于 2 年前

推荐系统中的常用评测指标

推荐系统中的评价指标有很多,下面来系统的总结一下,这些指标有的适用于二分类问题,有的适用于对推荐列表Topk的评价。1、精确率、召回率、F1值我们首先来看一下混淆矩阵,对于二分类问题,真实的样本标签有两类,我们学习器预测的类别有两类,那么根据二者的类别组合可以划分为四组,如下表所示:上表即为混淆矩阵,其中,行表示预测的label值,列表示真实label值。TP,FP,FN,TN分别表示如下...
转载
383阅读
0评论
0点赞
发布博客于 2 年前

从后验概率到逻辑回归,从逻辑回归到神经网络

从后验概率到逻辑回归,从逻辑回归到神经网络1. 后验概率对于给定数据,我们首先假设数据是由某种分布产生的,这样,根据贝叶斯公式我们可以得到后验概率分布,将后验概率最大的类作为xxx的类输出。后验概率计算根据贝叶斯定理进行:(1)P(Y=ck∣X=x)=p(X=x∣Y=ck)P(Y=ck)∑kp(X=x∣Y=ck)P(Y=ck)P(Y=c_k|X=x) = {p(X=x|Y=c_k)P(Y=c...
原创
1356阅读
1评论
3点赞
发布博客于 2 年前

深度学习中的优化方法

深度学习中的优化方法:以下内容会包括下面几种优化方法:Gradient DescentAdagradMomentumRMSProPAdam1. Gradient Descent首先,Gradient Descent是我们最常用的优化方法,梯度下降的参数更新公式为:(1)θi=θi−1−η∇L(θi−1)\theta^i = \theta^{i-1} - \eta
abla...
原创
234阅读
0评论
0点赞
发布博客于 2 年前

tf.nn.embedding_lookup函数的工作原理

tf.nn.embedding_lookup函数的工作原理函数定义:tf.nn.embedding_lookup( params, ids, partition_strategy='mod', name=None, validate_indices=True, max_norm=None)官方解释:This function is use...
原创
205阅读
0评论
0点赞
发布博客于 2 年前

libsvm/libffm与dataframe格式相互转换

1. libsvm与dataframe格式相互转换## 将libsvm转为dataframefrom sklearn.datasets import load_svmlight_filefrom pandas import DataFrameimport pandas as pdX_train, y_train = load_svmlight_file("libsvm_data.txt...
原创
3034阅读
2评论
2点赞
发布博客于 2 年前

用户画像系统概述

1. 用户画像的概念1.1 什么是用户画像?用户画像是对现实世界中的用户的数学建模。1.2 用户标签画像用户标签画像是用标签标示方法来表示用户。标签是某一种用户特征的符号表示;用户画像是一个整体,各个维度不孤立,标签之间有联系;用户画像可以用标签的集合来表示。1.3 用户标签的数学描述:标签是特征空间中的维度。特征空间:每个标签都是特征空间中的基向量;基向量之间有关联...
原创
4397阅读
1评论
5点赞
发布博客于 2 年前

Pandas实现Hive中的窗口函数

1、Hive窗口函数我们先来介绍一下Hive中几个常见的窗口函数,row_number(),lag()和lead()。row_number()该函数的格式如下:row_Number() OVER (partition by 分组字段 ORDER BY 排序字段 排序方式asc/desc)简单的说,我们使用partition by后面的字段对数据进行分组,在每个组内,使用ORDER BY...
转载
908阅读
0评论
1点赞
发布博客于 2 年前

git常用操作

git常用操作1、cd进入目录:2、把当前目录变成git可以管理的仓库:git init3、添加文件:单个文件:git add readme.md全部文件:git add -A4、提交修改:git commit -m “一定要写备注”5、查看是否还有未提交任务:git status6、查看最近日志:git log7、版本回退操作:回退一个:git reset -hard...
原创
121阅读
0评论
0点赞
发布博客于 2 年前

论文精读(一)——XGBoost:A Scalable Tree Boosting System

论文精读(一)——XGBoost:A Scalable Tree Boosting System
原创
1074阅读
0评论
2点赞
发布博客于 2 年前

统计学习方法(7)前向分步算法推导AdaBoost的详细过程

由前向分步算法可以推导Adaboost,用定理叙述这一关系:定理:AdaBoost算法是前向分步加法算法的特例。这时,模型是由基本分类器组成的加法模型,损失函数是指数函数。证明:前向分步算法学习的是加法模型,当基函数为基本分类器时,该加法模型等价于AdaBoost的最终分类器:f(x)=∑m=1MαmGm(x)f(x) = \sum_{m=1}^{M} \alpha_{m}G_{m}(x...
原创
569阅读
1评论
4点赞
发布博客于 2 年前

用GBDT构建组合特征

用GBDT构建组合特征
原创
2116阅读
2评论
4点赞
发布博客于 2 年前

GBDT(sklearn/lightgbm)调参小结

GBDT(sklearn/lightgbm)调参小结原理参数选择特征重要度
原创
5899阅读
5评论
8点赞
发布博客于 2 年前

pycharm通过ssh连接远程服务器

由于想要使用pycharm连接Window子系统Ubuntu进行开发,找了很多教程都不够详细,花了点儿时间,最后配置成功。将pycharm连接Window子系统的配置过程总结如下,连接其它远程服务器的过程相同:一、Ubuntu配置1、首先安装 ssh server:> sudo apt-get install openssh-server2、修改 ssh server 配置:&...
原创
17526阅读
0评论
6点赞
发布博客于 2 年前

ubuntu配置git工具

使用ubuntu,如果想从github上clone文件,需要做一些简单的配置,不然会出现如下错误:> git clone --recursive git@github.com:lujiaying/MovieTaster-Open.gitPermission denied (publickey).fatal: Could not read from remote repository....
原创
1349阅读
0评论
0点赞
发布博客于 2 年前

关于python中的全局变量、局部变量及递归中的使用

本文主要总结python中的全局变量、局部变量和函数调用时的可变对象的使用:1、关于全局变量和局部变量(1)如果函数内无global关键字,优先读取局部变量,无局部变量则读取全局变量,不能对全局变量重新赋值。name = 'jack'def change_name(): name = 'john' print(name)change_name()print(name...
原创
3031阅读
3评论
3点赞
发布博客于 3 年前

关于二叉树的相关题目

\qquad二叉树在数据结构中具有十分重要的作用,很多算法题都使用到树的思想。将复杂的算法题转化为简单子问题,并用树的形式表示,可以直观理解划分的过程,有利于分析和写出算法程序。比如:对于递归问题,就可以转化成树的形式,将树的叶节点作为终止条件,将树的生成过程作为迭代公式,根据题目要求使用先序、中序、后序遍历,下面总结有关二叉树的相关题目,二叉树的题目普遍可以用递归和迭代的方式来解:首先写出二叉...
原创
178阅读
0评论
0点赞
发布博客于 3 年前

关于二叉树的相关题目

\qquad二叉树在数据结构中具有十分重要的作用,很多算法题都使用到树的思想。将复杂的算法题转化为简单子问题,并用树的形式表示,可以直观理解划分的过程,有利于分析和写出算法程序。比如:对于递归问题,就可以转化成树的形式,将树的叶节点作为终止条件,将树的生成过程作为迭代公式,根据题目要求使用先序、中序、后序遍历,下面总结有关二叉树的相关题目,二叉树的题目普遍可以用递归和迭代的方式来解:首先写出二叉...
原创
178阅读
0评论
0点赞
发布博客于 3 年前

02.改善深层神经网络课程总结 -- 吴恩达(deeplearning.ai)

1、深度学习的实用层面1.1 训练、验证、测试集对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分:训练集(train set):用训练集对算法或模型进行训练过程;验证集(development set):利用验证集或者又称为简单交叉验证集(hold-out cross validation set)进行交叉验证,选择出最好的模型;...
原创
459阅读
0评论
1点赞
发布博客于 3 年前

01.神经网络与深度学习课程总结 -- 吴恩达(deeplearning.ai)

1.3 浅层神经网络
原创
203阅读
0评论
0点赞
发布博客于 3 年前

NumPy基础知识

本文翻译自NumPy官方文档,只提取了其中部分内容,文档地址NumPy User Guide1、NumPy介绍NumPy的核心是ndarray对象,该对象包含相同数据类型的n维数组。NumPy arrays和python sequences的区别:NumPy arrays在创建时就固定了大小,python lists可以动态增加;改变ndarray的大小会创建一个新的数组,删除原数组;...
翻译
225阅读
0评论
0点赞
发布博客于 3 年前

数据库SQL性能优化总结

一、SQL语句优化1、对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引;2、在 where 子句中对字段须避免以下操作,否则将导致引擎放弃使用索引而进行全表扫描;进行 null 值判断;使用 != 或 <> 操作符;使用 or 来连接条件,如果一个字段有索引,一个字段没有索引;in 和 not in 也要慎用;使用模...
转载
264阅读
0评论
0点赞
发布博客于 3 年前

Python 中的 defaultdict

Python 中的 defaultdict默认值可以很方便众所周知,在Python中如果访问字典中不存在的键,会引发KeyError异常(JavaScript中如果对象中不存在某个属性,则返回undefined)。但是有时候,字典中的每个键都存在默认值是非常方便的。例如下面的例子:strings = ('puppy', 'kitten', 'puppy', 'puppy', ...
转载
117阅读
0评论
0点赞
发布博客于 3 年前

机器学习:支持向量机(SVM)

SVMhttps://blog.csdn.net/xianlingmao/article/details/7919597
原创
381阅读
0评论
0点赞
发布博客于 3 年前

Spark SQL函数

Spark SQL函数
原创
3433阅读
0评论
4点赞
发布博客于 3 年前

降维(二) 线性判别分析(Linear Discriminant Analysis)

降维(二) LDA
原创
707阅读
0评论
1点赞
发布博客于 3 年前

降维(一) 主成分分析(Principal Components Analysis)

降维(一) PCA为什么需要降维?\qquad如果我们希望模型的精度比较高,或者说泛化误差率较小,那么我们希样本的采样密度足够大(密采样),即在任意样本xxx附近任意小的δ\deltaδ距离范围内总能找到一个样本。\qquad假设所有样本在其属性上归一化,对于δ=0.001\delta=0.001δ=0.001,仅考虑单个属性,需要1000个样本点平均分布在其取值范围内,可以保证所有样本...
原创
379阅读
0评论
0点赞
发布博客于 3 年前

ORACLE中ROWNUM用法总结

ORACLE中ROWNUM用法总结对于 Oracle 的 rownum 问题,很多资料都说不支持>,>=,=,between…and,只能用以上符号(<、<=、!=),并非说用>,& gt;=,=,between…and 时会提示SQL语法错误,而是经常是查不出一条记录来,还会出现似乎是莫名其妙的结果来,其实您只要理解好了这个 rownum 伪列的意义就不应...
转载
208阅读
0评论
0点赞
发布博客于 3 年前

数据结构:回溯法与动态规划算法实例分析

回溯法与动态规划1、回溯法1.1 适用场景回溯法很适合解决迷宫及其类似的问题,可以看成是暴力解法的升级版,它从解决问题每一步的所有可能选项里系统地选择出一个可行的解决方案。回溯法非常适合由多个步骤组成的问题,并且每个问题都有多个选项。当我们从一步选择了其中一个选项时,就进入下一步,然后又面临新的选项。我们就这样重复选择,直至到达最终的状态(递归终止条件)。1.2 过程:用回溯法解决问题的...
原创
355阅读
0评论
0点赞
发布博客于 3 年前

操作系统:处理器调度

操作系统——处理器调度1、CPU资源的时分复用进程切换: CPU资源的当前占用者切换。保存当前进程在PCB中的执行上下文(CPU状态);恢复下一个进程的执行上下文。处理器调度:从就绪队列中挑选下一个占用CPU运行的进程;从多个可用CPU中挑选就绪进程可使用的CPU资源。调度程序: 挑选就绪进程的内核函数。调度策略:依据什么原则挑选进程/线程?调度时机:什么时候进行调度...
原创
378阅读
0评论
1点赞
发布博客于 3 年前

操作系统:进程与线程

操作系统——进程与线程1、进程进程是指一个具有一定独立功能的程序在一个数据集合上的一次动态执行过程。1.1 概念:进程的组成:进程包含了正在运行的一个程序的所有状态信息。代码数据状态寄存器CPU状态CR0、指令指针IP通用寄存器AX、BX、CX …进程占用系统资源打开文件、已分配内存 …进程的特点:动态性可以动态地创建、结束进程并发性...
原创
669阅读
0评论
2点赞
发布博客于 3 年前

统计学习方法(6)梯度提升决策树GBDT

统计学习方法(6)boosting、AdaBoost和GBDT
原创
933阅读
0评论
1点赞
发布博客于 3 年前

统计学习方法(5)集成学习(提升方法):bagging和boosting

统计学习方法(4)bagging和随机森林
原创
1015阅读
0评论
1点赞
发布博客于 3 年前

统计学习方法(4)决策树

统计学习方法(4)决策树决策树是一种基本的分类与回归方法。决策树的学习过程:特征的选择决策树的生成决策树的修剪决策树生成只考虑了通过提高信息增益(或信息增益比)对训练数据进行更好的拟合,而决策树剪枝通过优化损失函数还考虑了减少模型复杂度。决策树生成学习局部的模型决策树剪枝学习整体的模型1、决策树的选择特征选择在于选取对训练数据具有分类能力的特征,划分数据集的大原则是:将...
原创
383阅读
0评论
0点赞
发布博客于 3 年前

统计学习方法(3)逻辑回归(Logistic Regression)

统计学习方法(3)逻辑回归1、从线性回归到逻辑回归(模型)1.1 线性模型:给定数据集{(x1,y1),(x2,y2),...,(xn,yn)}\{(x_1, y_1), (x_2,y_2),...,(x_n,y_n)\}{(x1​,y1​),(x2​,y2​),...,(xn​,yn​)},求参数ω\omegaω满足如下回归模型:y^=ω0+ω1x1+ω2x2+...+ωnxn\hat ...
原创
585阅读
0评论
0点赞
发布博客于 3 年前

python装饰器

python装饰器1、什么是装饰器?装饰器实际上就是在不用更改原函数代码的前提下给函数增加新的功能。因为程序已经上线或被使用,那么就不能大批量的修改源代码,这样是不科学的也是不现实的,因此就产生了装饰器,使得其满足:(1)不能修改被装饰的函数的源代码(2)不能修改被装饰的函数的调用方式(3)满足1、2的情况下给程序增添功能装饰器的组成:装饰器 = 函数 + 实参高阶函数 + 返回...
原创
71阅读
0评论
0点赞
发布博客于 3 年前

统计学习方法(2)感知机

统计学习方法(2)
原创
177阅读
0评论
0点赞
发布博客于 3 年前

统计学习方法(1) 理论基础

基本概念:1、基本假设:统计学习假定数据存在一定的统计规律,监督学习关于数据的基本假设就是假设X和Y具有联合概率分布P(X, Y)。2、假设空间(模型):监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作P(y|x)或y=f(x)。3、策略:在假设空间中选取模型f作为决策函数,对...
原创
404阅读
0评论
0点赞
发布博客于 3 年前

串——KMP算法

串——KMP算法如果我们要去找一个单词在一篇文章(相当于一个大字符串)中的定位,这种子串的定位操作通常称做串的模式匹配,是串中最重要的操作之一。1、朴素模式匹配按照通常的思路,要在一个长的字符串中找到指定的子串,比较简单的想法是:从左到右一个个匹配,如果这个过程中有某个字符不匹配,就跳回去,将主串开始比较的位置向右移动一位,直到结束。演示如下:(1)从串的开头初始化比较:(2)比较i...
原创
1587阅读
0评论
3点赞
发布博客于 3 年前

图的遍历之深度优先搜索和广度优先搜索

转载出处:http://www.cnblogs.com/skywang12345/ 图的遍历之 深度优先搜索和广度优先搜索 本章会先对图的深度优先搜索和广度优先搜索进行介绍,然后再给出C/C++/Java的实现。目录 1. 深度优先搜索的图文介绍 1.1 深度优先搜索介绍 1.2 深度优先搜索图解 2. 广度优先搜索的图文介绍 2.1 广度优先搜索介绍 ...
转载
161阅读
0评论
1点赞
发布博客于 3 年前

最短路径—Dijkstra算法和Floyd算法

Dijkstra算法1、概述Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止。Dijkstra算法是很有代表性的最短路径算法。注意该算法要求图中不存在负权边。问题描述:在无向图 G=(V,E) 中,假设每条边 E[i] 的长度为 w[i],找到由顶点 V0 到其余各点的最短路...
原创
219阅读
0评论
0点赞
发布博客于 3 年前

图论——最小生成树

1、kruskal算法(1)概览Kruskal算法是一种用来寻找最小生成树的算法,用来解决同样问题的还有Prim算法和Boruvka算法等。三种算法都是贪婪算法的应用。和Boruvka算法不同的地方是,Kruskal算法在图中存在相同权值的边时也有效。(2)基本思路:先对边按权重从小到大排序,先选取权重最小的一条边,如果该边的两个节点均为不同的分量,则加入到最小生成树,否则计算下一条边,直...
原创
363阅读
0评论
0点赞
发布博客于 3 年前

排序【5.1】桶排序&&基数排序&&计数排序

1、桶排序(Bucket Sort)(1)基本思想桶排序的基本思想是将一个数据表分割成许多buckets,然后每个bucket各自排序,或用不同的排序算法,或者递归的使用bucket sort算法。也是典型的divide-and-conquer分而治之的策略。它是一个分布式的排序,介于MSD基数排序和LSD基数排序之间。(2)基本流程建立一堆buckets;遍历原始数组,并将数据放入到各...
原创
114阅读
0评论
0点赞
发布博客于 3 年前

排序【4.1】归并排序(MergeSort)

归并排序(Merge Sort)1、基本思想:将两个的有序数列合并成一个有序数列,我们称之为"归并"。归并排序(Merge Sort)就是利用归并思想对数列进行排序。根据具体的实现,归并排序包括"从上往下"和"从下往上"2种方式。(1)从下往上的归并排序:将待排序的数列分成若干个长度为1的子数列,然后将这些数列两两合并;得到若干个长度为2的有序数列,再将这些数列两两合并;得到若干个长度为4..
原创
104阅读
0评论
0点赞
发布博客于 3 年前

排序【3.1】交换排序(BubbleSort && QuickSort)

1、插入排序——冒泡排序(Bubble Sort)(1)基本思想:它是一种较简单的排序算法。它会遍历若干次要排序的数列,每次遍历时,它都会从前往后依次的比较相邻两个数的大小;如果前者比后者大,则交换它们的位置。这样,一次遍历之后,最大的元素就在数列的末尾! 采用相同的方法再次遍历时,第二大的元素就被排列在最大元素之前。重复此操作,直到整个数列都有序为止!(2)排序过程:以数列{20,40,...
原创
77阅读
0评论
0点赞
发布博客于 3 年前

排序【2.1】插入排序(InsertSort && ShellSort)

1、插入排序——直接插入排序(Straight Insertion Sort)(1)基本思想:像排序一手扑克牌。开始时,我们的左手为空并且桌子上的牌面向下。然后,我们每次从桌子上拿走一张牌并将它插入左手中正确的位置。为了找到一张牌的正确位置,我们从右到左将它与已在手中的每张牌进行比较。如图所示,左手上的牌总是排序好的,原来这些牌是在桌子上排堆中顶部的牌。基本思想:把n个待排序的元素看成为一...
原创
161阅读
0评论
0点赞
发布博客于 3 年前

排序【1.1】选择排序(SelectSort && HeapSort)

1、选择排序——简单选择排序(Simple Selection Sort)1.1 基本思想:它的基本思想是:首先在未排序的数列中找到最小(or最大)元素,然后将其存放到数列的起始位置;接着,再从剩余未排序的元素中继续寻找最小(or最大)元素,然后放到已排序序列的末尾。以此类推,直到所有元素均排序完毕。1.2 排序过程:以数列{20,40,30,10,60,50}为例,演示它的选择排序过程:...
原创
82阅读
0评论
0点赞
发布博客于 3 年前

概率论基础知识(三) 参数估计

概率论基础知识(三) 参数估计1、矩矩是用来描述随机变量的某些特征的数字,即求平均值,用大写字母E表示。矩是更具有一般意义的数字特征。设有随机变量X,若E(∣X∣k)<+∞E(|X|^k)<+\inftyE(∣X∣k)<+∞(即:存在且有限),则称αk=E(Xk)\alpha_k=E(X^k)αk​=E(Xk),k=1, 2, …是X的k阶原点矩。若E(...
原创
4196阅读
0评论
2点赞
发布博客于 3 年前

概率论基础知识(二) 随机变量及其分布

概率论基础知识(二)
原创
3426阅读
2评论
5点赞
发布博客于 3 年前

Spark:coalesce()方法和repartition()方法

coalesce()方法和repartition()方法1、coalesce()方法def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null) : RDD[T] = withScope { if (shuffle) { } else { }}...
原创
1677阅读
0评论
1点赞
发布博客于 3 年前

Spark DataFrame常用操作

Spark DataFrame常用操作工作中经常用到Spark SQL和Spark DataFrame,但是官方文档DataFrame API只有接口函数,没有实例,新手用起来不太方便。下面这篇博客总结的很好,基本常用的API都有讲解,而且都有示例,平时使用的时候经常查看,很方便。Spark-SQL之DataFrame操作大全下面是其中没有包含的内容,工作中比较常用,总结在这里:1、正则匹...
原创
8586阅读
0评论
3点赞
发布博客于 3 年前

集群 & 服务器操作常用命令

集群 & 服务器操作常用命令:1、跨服务器操作:两台机器IP分别为:A.104.238.161.75 \quad B.43.224.34.73在A服务器上操作,将B服务器上/home/lk/目录下所有的文件全部复制到本地的/root目录下,命令为:scp -r root@43.224.34.73:/home/lk /root在A服务器上将/root/lk目录下所有的文件传输到...
原创
968阅读
0评论
0点赞
发布博客于 3 年前

概率论基础知识(一)概率论基本概念

概率论基础知识0. 前言本文主要旨在对概率论的基础概念与知识进行概要的总结,以便于使用到时可以参考。 概率论是数理统计的基础,也是很多机器学习模型的支撑,概率论在机器学习中占主要地位,因为概率论为机器学习算法的正确性提供了理论依据。1. 概率论的基本概念1.1 基本概念随机实验(E) (1)可以在相同的条件下重复地进行 (2)每次实验的可能结果不止一...
原创
17026阅读
0评论
21点赞
发布博客于 3 年前

回溯算法

回溯算法思想: 回溯算法是深度优先策略的典型应用,回溯算法就是沿着一条路向下走,如果此路不同了,则回溯到上一个分岔路,再选另一条路走,一直这样递归下去,直到遍历所有路径。回溯算法是遍历算法的一种。...
原创
247阅读
0评论
0点赞
发布博客于 3 年前

分治算法

1、分治思想分治算法思想为分而治之(divide-and-conquer),各个击破, 就是先把一个问题若干个子问题,然后分别解决各个子问题。分治算法是递归的典型应用。分治算法的子问题具有如下的特点: 1) 子问题比原问题更容易解决 ; 2) 子问题的解可以合并为原问题的解。常见的利用分治算法思想的有快速排序以及归并排序等等。2、算法举例回文 回文就是从头到尾读与从尾到...
原创
115阅读
0评论
0点赞
发布博客于 3 年前

动态规划

动态规划(dynamic Programming)动态规划不像贪心算法,从名字上很难理解具体的算法思想,如果换个名字应该就好理解了,动态规划可以叫做有缓存的递归。大家应该知道,递归过程中产生了大量的重复计算,从而导致大量耗时,那如何避免这些不必要的重复计算呢? 那就是缓存缓存\color{#F00}{缓存},当第一次计算这些值的时候,把它们缓存起来,等到再次使用,直接把它们直接拿过来用,这样...
原创
657阅读
0评论
0点赞
发布博客于 3 年前

贪婪算法

贪婪算法: 在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择,贪心策略使用的前提是局部最优能导致全局最优。设计过程: 1、建立数学模型来描述问题; 2、把求解的问题分成若干个子问题; 3、对每一子问题求解,得到子问题的局部最优解; 4、把所有子问题的局部...
原创
716阅读
0评论
0点赞
发布博客于 3 年前

穷举法解决0-1背包问题

穷举法是将所有的候选解按某种顺序进行逐一枚举和检验,并从中找出符合要求的候选解作为问题的解,是一种暴力解法,算法思路简单,但复杂度高,一般用于数据量小的情况。下面利用穷举法解决0-1背包问题:[0-1背包问题] 有一个背包,背包容量是M=150kg。有7个物品,物品不可以分割成任意大小。 要求:尽可能让装入背包中的物品总价值最大,但不能超过总容量。 物品 A B ...
原创
3578阅读
3评论
1点赞
发布博客于 3 年前

排序【0】 排序算法简介

任何依赖成对元素比较的通用排序算法都具备Ω(nlogn)时间复杂度。概述 排序的分类:内部排序和外部排序 内部排序:数据记录在内存中进行排序 外部排序:因排序的数据量大,需要内存和外存结合使用进行排序这里总结的八大排序是属于内部排序: 当n比较大的时候,应采用时间复杂度为nlog2n的排序算法:快速排序、堆排序或归并排序。 其中,快速排序是目前基于比较的内部排序中被认为最好的...
原创
95阅读
0评论
0点赞
发布博客于 3 年前

MapReduce工作原理

一、MapReduce完整运行流程解析:1、在客户端启动一个作业。2、向JobTracker请求一个Job ID。3、将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。jar文件默认会有10个副本(ma...
转载
79阅读
0评论
0点赞
发布博客于 3 年前

数据库中的索引技术——哈希索引

数据库中的索引技术——哈希索引1、哈希索引哈希索引(hash index)基于哈希表实现,只有精确匹配索引所有列的查询才有效。对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码(hash code),哈希码是一个较小的值,并且不同键值的行计算出来的哈希码也不一样。哈希索引将所有的哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。对于hash相同的,采用链表的方式解决...
原创
21504阅读
3评论
17点赞
发布博客于 3 年前

数据库中的索引技术——B+树

索引对于良好的性能非常关键。尤其是当表中的数据量越来越大时,索引对性能的影响愈发重要。在数据量较小且负载较低时,不恰当的索引对性能的影响可能还不明显,但当数据量逐渐增大时,性能则会急剧下降1。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高几个数量级,“最优”的索引有时比一个“好的”索引性能要好两个数量级。1 基本索引索引记录: 由一个搜索码值和指向具有该搜...
转载
688阅读
0评论
0点赞
发布博客于 3 年前

MySQL数据文件的组织

MySQL数据文件的组织1 字段的表示 Name Address Gender Birthday Bob previlige M 19/06/1992 Mary malloand F 20/02/2003每个字段均被SQL定义成具体的数据类型,表示成一定长度的字节序列。 字段名 类型 长度...
原创
557阅读
0评论
0点赞
发布博客于 3 年前

SQL语句执行顺序详解

SQL语句执行顺序详解阅读目录数据准备SQL逻辑查询语句执行顺序执行FROM语句执行ON过滤添加外部行执行WHERE过滤执行GROUP BY分组执行HAVING过滤SELECT列表执行DISTINCT子句执行ORDER BY子句执行LIMIT子句SQL 不同于与其他编程语言的最明显特征是处理代码的顺序。在大数编程语言中,代码按编码顺序被处理,但是在SQL语...
转载
178阅读
0评论
0点赞
发布博客于 3 年前

爬虫之XPath语法

爬虫之XPath语法1、简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。2、XPath节点七种基本节点 元素、属性、文本命名空间、处理指令、注释以及根节点节点之间的关系 父、子、同胞(兄弟)、先辈、后代3、XPath语法3....
原创
323阅读
0评论
0点赞
发布博客于 3 年前

爬虫之CSS选择器的使用(BeautifulSoup)

CSS选择器的使用(BeautifulSoup)1、CSS选择器概述BeautifulSoup支持大部分的CSS选择器。 语法为:向tag对象或BeautifulSoup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回,即返回类型为list。tag.select("string")BeautifulSoup.select("string&quot
原创
3275阅读
2评论
3点赞
发布博客于 3 年前

Spark数据分析基础

spark大数据分析基础1、spark简介1.1 Spark程序(1)驱动器程序 从上层来看,每个Spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作。驱动器程序包含应用的main函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应用了相关操作。在spark-shell中,实际的驱动器程序就是Spark shell本身,你只需要输入想要运...
原创
599阅读
0评论
0点赞
发布博客于 3 年前

Spark SQL原理与应用

Spark SQL原理与应用
原创
2019阅读
2评论
3点赞
发布博客于 3 年前

文件的格式化与awk数据处理

文件的格式化与相关处理通过数据流重定向配合printf功能,以及awk命令,就可以让你的信息以你想要的模样输出。 1、格式化打印:printf功能: 很多时候,我们可能需要将自己的数据格式化输出,但是由于原始数据长度不定,会出现格式混乱,printf可以将数据输出的结果格式化。 格式: printf ‘打印格式’ 实际内容举例: >> prin...
原创
262阅读
0评论
0点赞
发布博客于 3 年前

grep、sed + 正则表达式

正则表达式正则表达式是通过一些特殊字符的排列,用以查找、替换、删除一行或多行文字字符串。 正则表达式并不是一个工具程序,而是一种字符串处理的标准依据,如果想要以正则表达式的方式处理字符串,就得要使用支持正则表达式的工具程序才行,这类工具程序很多,例如:vi、grep、sed、swk等。正则表达式字符: 正则表达式 – 语法 | 菜鸟教程 正则表达式几个工具的使用:1...
原创
135阅读
0评论
0点赞
发布博客于 3 年前

SQL语句的基本特性

SQL语法
转载
494阅读
0评论
1点赞
发布博客于 3 年前

shell管道命令(pipe)

shell管道命令(pipe)功能: 管道命令操作符是:| , 它仅能处理前面一个指令传出的正确输出信息,也就是 standard output 的信息,对于 stdandard error 信息没有直接处理能力。然后将输出信息传递给下一个命令,作为标准输入 standard input。用法: 在每个管线后面接的第一个数据必定是『命令』,而且这个命令必须要能够接受 standard ...
原创
2259阅读
0评论
0点赞
发布博客于 3 年前

Hadoop FS常用命令

1、概述Hadoop文件系统(FS)提供了各种shell命令,与shell命令行类似,可用于与Hadoop分布式文件系统(HDFS)进行交互,以管理HDFS集群中的文件和数据。 2、Hadoop FS常用命令(1)创建目录hadoop fs -mkdir <paths>创建单个目录:hadoop fs -mkdir /user/root/dir1创建...
原创
6954阅读
0评论
1点赞
发布博客于 3 年前

转载:剑指offer——python算法实现

原文:https://blog.csdn.net/u012505432/article/details/52071537内容很赞,感谢原作者Jack Lee,转载过来学习交流。 剑指offer的绝大多数算法的Python实现。测试用例都注释掉了,直接去掉注释就好。数据结构markdown格式链表及常见操作平衡查找树AVL三种方法检测变位词Anagram构建堆二分查找...
转载
108阅读
0评论
0点赞
发布博客于 3 年前