- 博客(47)
- 资源 (1)
- 收藏
- 关注
原创 项目管理知识理论落地实践
请大家原谅我消失了一年多,这一年半的时间在从事项目管理工作,积攒一年终于获得一定成果,拿来给大家分享。首先晒个绝版PMP 5A证书和考试成绩单,真的是绝版哦,因为后边就不再有5A的评价了^_-然后附上个人结合项目管理知识理论与实际项目经验整合的资料,包括了大家可能都会不易搞明白的理论落地实际的关键,以及一些从事项目管理必备的素材,如软开国家标准、阿里巴巴代码规范、高级项目管理师电子版书籍等。深度可能不够拔高,适合从事项目管理初期的人员参考,但绝对全!是本人整理后企业内部实行的版本,关键完全.
2021-11-21 11:45:07 588 1
原创 SSH框架源码分析
近期接手一个某法院的文书分析项目,做二期升级改造,项目建成于2015年,拿到代码之后的我一脸懵B、无从下手。凭借自己丰富的方法论+度娘帮助,四天拿下源码,明确二期项目实施方法。分享给大家,回馈度娘,也帮助自己再一次理解项目。首先感谢博主文章,受益良多!java项目中怎样看使用的是什么框架啊?_百度知道https://zhidao.baidu.com/question/1861686131604102987.htmlSSH框架总结(框架分析+环境搭建+实例源码下载)_贾琳 一名系统架构师的征途-CSD
2021-12-15 17:38:18 3474 3
原创 Linux环境搭建web项目(jdk+tomcat+mysql)
本文主要记录Linux环境下搭建Java web项目步骤及常见问题处理方法,框架版本说明:jdk1.7+tomcat7.0+mysql5.6(老项目迁移发布需要)。安装包建议本机下载,然后通过shell工具上传到Linux服务器上,推荐一个final shell工具挺好用的。搭建环境基础流程:查看主机是否自带其他版本框架->copy安装包->解压->配置参数/环境变量或软链接->验证成功与否/启停服务。jdk安装不再赘述,检查自带版本->解压、配置环境->验证
2021-12-13 17:42:54 501
原创 数据分析全流程必修课之HTTP接口
数据分析及治理必不可少的步骤即是数据对接,数据对接三种方式:socket方式、ftp方式以及共享数据库,socket方式即HTTP接口方式,FTP方式即共享服务器,本次主要介绍socket方式。感谢黄师傅本周的悉心指导,愿学习的路上,你我惜而同行!1.HTTP对接方式(8种) 序号 传输 方式 描述 1 get 请求指定页面,返回实体主体 2
2021-11-14 22:20:45 2440
原创 毕业生求职心得与建议
2019年11月底,由于导师催促大论文尽快完成,导致我们(我和室友,室友搞瓦斯地质的,跨专业找计算机相关工作,对人工智能比较感兴趣)比别人晚了好多,赶上了个秋招的尾巴。科普一下:毕业生最后一年一般要找工作,分秋招和春招,时间段一般是9、10、11和3、4、5月份,并且一般的秋招更容易找到工作,因为第二年的春招一般是公司由于人员变动等原因进行的补录,补录当然会尽量选取极为优秀的同学,所以春招的难度是...
2020-03-24 16:22:36 666
原创 Spark各版本源代码及安装包下载方法
插句题外话:好久没上博客了,最近没搞项目,回学校写论文了,因为论文需要所以得下载spark2.1.0的源码,宿舍网是校外网,访问外网的时候容易死翘翘。于是乎,我就在百度上搜了一下,结果,哇!就这么点儿东西,有人要5C币,有人要10C币,还有更多的。人,有时候就会忽然中二症犯了,瞬间感觉义愤填膺,于是,就写了这篇博文,告诉大家如何免费下载各版本的Spark源码及安装包,顺便也奉告一下那...
2019-09-29 12:22:05 7951 8
原创 spark mllib算法思想总结
Spark MLlib全部算法总结(2.1.0版)说明:总结算法为Spark2.1.0中Mllib中源码算法,参照网络链接及书籍整理而成。算法按计算过程分两大类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。监督学习:指给定算法的一个数据集,其中包含了“正确答案”。算法的目的就是给出更多的“正确答案”。无监督学习:指给...
2019-02-15 09:27:07 2773 1
原创 2.5调优(tuning)
2.5 调优(tuning)2.5.1&2.5.2 模型选择(超参数调整)与调优分类器模型通常在特定的数据上进行训练,由于所得模型可能存在过拟合的现象。因此,模型训练完成之后通常需要进行检验,以验证分类模型在未知数据集上的预测能力,即我们通常所说的“模型泛化”能力。交叉检验(Cross Validation):交叉验证是用来验证分类器的性能的一种统计分析方法,基本思想是把在...
2019-02-15 09:15:14 873
原创 2.4回归(regression)
2.4 回归(regression)2.4.1 @生存分析(AFT Survival Regression)在Spark.ml中,实现了加速失效时间(AFT(Accelerate Failure Time))模型,这是一个用于检查数据的参数生存回归模型。它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为买个实...
2019-02-15 09:15:01 972
原创 2.3优化(optim)
2.3 优化(optim)2.3.1&2.3.2 最小二乘法(Least Squares)加权最小二乘法(WLS(Weighted Least Squares)):一般最小二乘法将时间序列中的各项数据的重要性同等看待,而事实上时间序列各项数据对未来的影响作用应是不同的。一般来说,近期数据比起远期数据对未来的影响更大。因此比较合理的方法就是使用加权的方法,对近期数据赋以较大的权数...
2019-02-15 09:14:46 885
原创 2.2分类(classification)
2.2 分类(classification)2.2.1 多层感知器分类器(MLPC(Multilayer Perceptron Classifier))多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输...
2019-02-15 09:14:35 1492
原创 2.1组件(ml)
2.1 组件(ml)2.1.1 管道化(Pipeline)虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂。所以,一个可用于构建复杂机器学习工作流应用的新库已经出现了,它就是 Spark 1.2 版本之后引入的 ML...
2019-02-15 09:14:26 689
原创 1.10树(tree)
1.10 树(tree)1.10.1 决策树(Decision Tree)首先,Mllib认为,决策树时随机森林(Random Forest)的一种特殊情况,也就是只有一棵树并且不采取特征抽样的随机森林。所以在训练决策树的时候,其实是训练随机森林,最后从随机森林中抽出一棵树。决策树时一个数结构(可以是二叉树或非二叉树),由节点和有向边组成。决策树学习的本质是从训练数据集上归纳出一组分类...
2019-02-14 20:45:17 753
原创 1.9统计(stat)
1.9 统计(stat)1.9.1 核密度估计(KDE(Kernel Density Estimation))由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们嘉定数据分布符合某种特定的性态,如线性、指数性态等,然后在目标函数族中寻找特定的解,即确定回归模...
2019-02-14 20:38:07 1848
原创 1.8推荐(recommendation)
1.8 推荐(recommendation)(协同过滤推荐算法)协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。在基于用户的方法的中,如果两个用户表现出相似的偏好(即对相同物品的偏好大体相同),那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品,便可选取若干与其类似的用户并根据他们的喜好计算出对各个物...
2019-02-14 20:34:19 808
原创 1.7优化(optimization)
1.7 优化(optimization)1.7.1 梯度下降(Gradient Descent)解决回归算法中一些求拟合线性方程最优解问题,即最小化损失函数J(θ) = ( h(x) - y )^2的问题,有两种求解方法:最小二乘法和梯度下降法。而通过矩阵求解最小二乘公式中:θ = ( XTX)-1XTy→要求X是列满秩的,而且求矩阵的逆比较慢,所以一般采用梯度下降法。算法目标是最小化...
2019-02-14 20:33:00 1381
原创 1.6关联规则(fpm)
1.6 关联规则(fpm)1.6.1 关联规则(FPGrowth(Frequent Pattern Growth))关联规则挖掘的一个典型例子是购物篮分析。关联规则的研究有助于发现交易数据库中不同商品(项)之间的关系,找出顾客购买行为模式,如{啤酒,尿布}。首先弄清楚几个概念:项(item):即商品;项集:若干项的集合。 关联规则:关联规则用于表示数据内隐含的关联性。一般记X为先...
2019-02-14 20:27:02 1028
原创 1.5特征(feature)
1.5 特征(feature)特征中有三种算法:ChiSqSelector、VectorSlicer和RFormula为特征选择方法;有三种方法:CountVectorizer、TF-IDF和Word2Vec组成三种文本特征抽取方法;其余方法为特征变换。特征变换又分5个类:自然语言相关特征转换,包括:Tokenizer、Stop Words Remover、n-gram。 连...
2019-02-14 20:25:07 5250
原创 1.4评估(evaluation)
1.4 评估(evaluation)1.4.1 曲线下面积(AUC(Area Under Curve))AUC是指ROC曲线下的面积,而ROC计算需要了解混淆矩阵。混淆矩阵:如:预测肿瘤是否为良性。 TP表示预测为良性,而实际也是良性的样例数; FN表示预测为恶性,而实际是良性的样例数;FP表示预测为良性,而实际是恶性的样例数; TN表示预测为恶性,而实际也是恶性的样例数;这...
2019-02-14 09:35:38 887
原创 1.3聚类(clustering)
1.3 聚类(clustering)1.3.1 K均值(K Means)KMeans算法的基本思想是初始随机给定K个簇中心,按照最近邻原则把待分类样本定分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。KMeans聚类算法主要分为3个步骤:为待聚类的点寻找聚类中心。 计算每个点到聚类中心的距离,将每个点聚类到离该点最近的...
2019-02-14 09:32:06 1811
原创 1.2回归(regression)
1.2 回归(regression)回归问题如何寻找使损失函数最小化的最优解,假设函数为线性回归模型函数,整体思想如下:针对最小二乘法来说,可以使用梯度下降法算法实现:而随机梯度下降算法只不过是在梯度下降法(又称批量梯度下降法)的基础上做出了改进,选取的数据非全部数据,而是抽样选择部分数据对整体数据进行“以偏概全”正则化:解决这类问题,可以采用收缩发(s...
2019-02-14 09:24:40 1072
原创 1.1分类(classification)
1.1 分类(classification)1.1.1线性回归(Linear Regression)线性回归是利用被称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。这种函数式一个或多个被称为回归系数的模型参数的线性组合。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析被称为一元回归分析。如果回归分析中包...
2019-02-14 09:15:58 2605
原创 一个简单的想法
有时间回头看看自己写的这些个博文,不觉发现了一些潜在的规律,有些当初只是记一个踩坑的经历或是仅仅写一些没有多少内涵的文章,点击量就会特别少,也就那么几百人,随随便便信手点点;有些自己认真整理的,还有些凝结自己真实想法及逻辑思维在内的,反而就会有很多的人看。 虽然不能以阅读量作为唯一的标准,但这至少是一个侧面的反馈,就像虽然大多数人说高考是不公平的,可也就只有高考是能让...
2018-12-27 09:35:14 482
原创 ubuntu16.04安装NVIDIA及CUDA,配置OpenCL
ubuntu16.04安装NVIDIA及cuda说明:拟使用ubuntu16.04LTS,NVIDIA driver384及cuda9.0,jdk1.8,scala2.11.8,hadoop2.7.6,spark2.1.0,eclipseForScala4.7.0,maven3.5.0,opencl1.2,具体参数见详细步骤。1 Linux系统安装1.1 下载准备材料下载ubu...
2018-12-26 09:11:30 3914 3
原创 failed to locate opencl native library
错误内容:Check your environment. Failed to load aparapi native library aparapi_x86_64 or possibly failed to locate native library (opencl.dll / opencl.so). Ensure that both are in your PATH(windows) or in...
2018-11-05 19:33:40 1157
原创 SparkCL VectorAdd
SparkCL给出了三个Demo,分别是SparkCLPi、SparkCLVectorAdd、SparkCLWordCount源码地址:https://gitlab.com/mora/spark-ucores用于求向量相加的源码较为简单:算法思路:求向量和a[] = b[] + c[],将其中对应元素相加赋给新数组即可。对比SparkCLPi,VectorAdd中使用了reduce...
2018-10-30 16:27:32 505 2
原创 自制centos7安装NVIDIA驱动及CUDA
需准备文件包括NVIDIA驱动(官网https://www.geforce.cn/drivers)以及cuda Toolkit(官网https://developer.nvidia.com/cuda-downloads)首先查看自己GPU型号lspci | grep -i vga 按照对应版本下载,驱动Linux64位--Geforce GTX970--Chinese(simplified...
2018-10-18 09:21:59 4185
原创 自制物理机安装centos7详细过程
1下载系统镜像文件CentOS官网https://www.centos.org/->Get CengOS Now->list of current mirrors ->选择镜像文件路径:centos7->isos->x86_64->dvd.iso 注:中间涉及用U盘拷贝系统盘,对于大于4G的文件无法拷贝的问题,见如下:具体修改格式方法参见:h...
2018-10-14 00:19:50 12544 2
原创 自制Spark安装详细过程(含Scala)
推荐spark安装链接http://blog.csdn.net/weixin_36394852/article/details/76030317一、scala下载安装与配置 1.下载 cd /usr/scala //若不存在则新建 wget https://downloads.lightb...
2018-09-18 09:12:42 4095 1
原创 SparkCLPi
SparkCL给出了三个Demo,分别是SparkCLPi、SparkCLVectorAdd、SparkCLWordCount源码地址:https://gitlab.com/mora/spark-ucores用于求π的源码解析如下:源码所采用求π算法思路:x,y去0~1的随机数,做简单变换X,Y变为(-1~1),返回统计结果中在圆形内部点的概率占正方形的比例,即图中圆面积除以正...
2018-09-12 15:20:09 581
翻译 SparkCL
原文:《SparkCL: A Unified Programming Framework for Accelerators on Heterogeneous Clusters》翻译:概要:我们提出SparkCL,这是一个基于Java、OpenCL和Apache Spark框架的开放源码统一编程框架。这项工作的动机是将诸如fpgas/gpus/apus/DSPs等非传统的计算核心,以及未来的...
2018-09-12 10:51:35 769
原创 Spark32个常用算子总结
官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。(注:以下截图为windows下运行结果)Transformation:1.mapmap的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),ma...
2018-08-09 14:37:44 43920 8
原创 Spark distinct中numTasks含义
Spark中Transformation有个distinct([numTasks])算子用于返回一个在源数据集去重之后的新数据集,即去重。可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义,于是做了一下测试:依次对numTasks值增大测试:numTasks=1numTasks=2numTasks=3numTask...
2018-08-08 14:24:30 3074 2
原创 适合GPU运算的类型
适合GPU运算的运算类型有以下六种:(1)大量的轻量级运算即用大量数据或者用同一数据多次调用同一公式或者计算过程,公式本身并不复杂,只是执行的次数较多,这是GPU先天的优势。(2)高度并行高度并行指的就是各个数据之间运算互不影响,即耦合度较低。由于GPU本身硬件基础决定,各个workgroup之间并不相互通信,只有同一workgroup内的work-item之间才相互通信,所以GP...
2018-07-24 15:05:01 8404
原创 Java常见异常总结(持续更新中......)
1.类未找到Exception in thread "main" java.lang.NoClassDefFoundError:类名Caused by: java.lang.ClassNotFoundException:类名这种异常未未发现类异常,是由于编译的时候未找到该类而报异常,一般原因是由于缺少项目所需jar包导致。一般来说,项目A调用了项目B所打成的jar包中的类的话,那么项目...
2018-07-23 14:54:37 1384
原创 自制Hadoop伪分布、集群安装详细过程(vmware)
Hadoop单机版、伪分布、集群安装教程推荐链接:http://dblab.xmu.edu.cn/blog/page/2/?s=Hadoop注:vmware6.5及以上,执行命令基本相同,除了编辑文件时“vi”指令替换为“vim”指令一、下载安装所需文件 1.vmware10中文版 2.centos6.4 3.jdk1.8-L...
2018-07-20 16:44:16 2286 4
原创 抄袭与转载之思考(3)
这是一篇与代码并无关系的文章,从这里也并不能学习到任何方法和经验,有的就只是我个人的一点点小看法,和些许掺杂各种愤恨等情绪的牢骚。 言归正传,我从17年底开始接触大数据方面,一点点学习与积累,是一个小公司的一个新入职的小职员,真的是名不见经传。不知道为何“平台”会盯上我这些超低含金量的文章而进行抄袭,有时候我也在想,倘若真的有一天我成为了业内大神,谅他们也不敢抄袭了。 这些东西...
2018-07-06 15:36:25 1727
原创 抄袭与转载之转载(2)
这是一篇与代码并无关系的文章,从这里也并不能学习到任何方法和经验,有的就只是我个人的一点点小看法,和些许掺杂各种愤恨等情绪的牢骚。 在痛恨完抄袭事件之后,我也开始感恩转载的这一平台,尽管这小小的感谢并不会引起多大的蝴蝶效应,也不一定会能让平台感受到。但感恩这件事,我觉得,只要自己做了,无愧于心便好。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~感谢平台: 易学教程 ~~...
2018-07-06 15:04:55 939
原创 抄袭与转载之抄袭(1)
这是一篇与代码并无关系的文章,从这里也并不能学习到任何方法和经验,有的就只是我个人的一点点小看法,和些许掺杂各种愤恨等情绪的牢骚。 从开始写第一篇博客到现在,差不多有小半年的时间了,写这些东西,一方面是为了记录自己学习过程中的点点滴滴,是为了积累或者是总结;另一方面,也是为了想跟大家分享一下自己学习心得,或多或少的希望可以帮到各位“新入门的码友”一点点。当我把这看成是一个自己的分享...
2018-07-06 14:56:24 1685 5
原创 getGlobalId与getGlobalSize等参数释义
最近在《OpenCL异构计算》这本书(《Heterogeneous computing with OpenCL》翻译而来)上看到有一部分解释这些异构常用字段方法的含义,加上个人理解,希望可以帮助“码友”快速理解。get_work_dim 返回线程调度的维度数;(个人理解)表示NDRange的维度数。get_global_size 返回所请求维度上work-item的总数...
2018-07-04 18:26:13 4732
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人