ubuntu配置开机服务自启和定时任务 将一些自启脚本放置到/etc/init.d目录下,然后编辑 /etc/rc.local。注:博客又开始更新了,会记录做机器视觉(测距)和自然语言处理的一些实践。在启动脚本时可以打印一些状态信息,用于后期排查使用!可以编辑crontab -e,然后加入定时任务。
特征工程-特征处理 1 特征工程 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。“工欲善其事,必先利其器”,特征工程可以理解为利其器的过程。2数据采集、数据清洗、数据采样...
MobileNet总结 MobileNet V1MobileNet主要是针对移动端或者嵌入式设备优化的卷积。特点:(1)放弃pooling直接采用stride = 2进行卷积运算。(2)使用depthwise separable convolutions。(3)用两个超参数来控制网络计算速度与准确度之间的平衡,宽度调节参数和分辨率参数,主要用于压缩模型。Depthwise separable convolut...
Kenlm 使用 总结工作中用到及学习的知识,也算自己的一个笔记。 环境准备 #公司环境为Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum install zlibyuminstallzlib-develwget-O-https://kheafield.com/code/kenlm.ta...
语言模型-Ngram 总结工作中用到和学习的知识,也算自己的一个笔记。 语言模型 语言模型简单来讲,就是计算一个句子的概率,更确切的说是计算组成这个句子一系列词语的概率。 举个简单的例子,我们知道“武松打死了老虎”相比于“老虎了死武松打”,更像是一句正常的话,这是因为前者出现的概率更高。对一句话而言,它的概率举个简单的邮件分类例子,对于垃圾邮件中...
TensorFlow模块介绍 TensorFlow 模块执行的时候,相当于拓扑排序,先把入度为0的节点加入计算队列,执行完后,更新节点的入度,如果有节点的入度为零,则加入执行队列。为零可能多个,则可以并行执行。(1)并行计算块(2)分布式计算块(cpus,gpus,tpus) (3) 预编译优化(4)可移植性好...
TensorFlow介绍和安装使用 TensorFlow1.后向传播的发展,促进深度学习,梯度下降2.TensorFlow 创作者 Jeff Dean Google Brain负责人hadoop mapreduce,bigtable pfGPU TPU为tensorflow专研的设备3.智能社会,银行内没有人,活动场景识别、行为识别、OCR+自动审核,身份证人脸图像比较识别落地应用:机器翻译;能源节能:牛奶...
专题机器学习和深度学习---1.python 最近很少写文章,打算把以前的机器学习和深度学习写一个专题,每天都要写一点,写在这里打个卡,也是督促自己。总结下python。python是一个脚本语言。常用的分析库/包(1)numpy :数组,矩阵(2)scipy : 统计、优化、线性代数、信号、图像处理等(3)pandas: 基于numpy,数据框,序列,数据处理,绘图(4)statsmodule 统计检验,统计建模(5)s...
spark 提交jar包优化 1.原因在测试中,使用livy去运行spark程序,采用代码片段的方式。但是应用在启动的,会把本地的jar文件上传到hdfs,然后再从hdfs分发到其它的运算节点,这个很影响性能。可以配置如下内容2.配置之后,应用等待时间,明显降低。第二个参数,主要是删除应用jar的缓存,防止应用过多,占用hdfs存储。...
spark提交脚本,记录相关信息 主要是记录GC的相关内容,每个任务的最大重试次数。/usr/lib/spark/bin/spark-submit --class com.centrality.kBC.kBCDriver --executor-cores 1 --executor-memory 10000M --master yarn-cluster --num-executors 28 --conf spark.driver....
graphx-lpa 1.LPA 标签传播算法,主要是顶点计算函数,选择label标签最多的项,更新顶点的属性。根据相应的业务,可以修改graphx的源码进行修改,改为我们业务中需要的标签值。由于LPA很难保证收敛,所以要设定迭代次数。2.代码object LabelPropagationAlgorithm { /** * Run static Label Propagation for detecti...
graphx-ConnectedComponents 1.ConnectedComponents返回一个与原图结构相同的图,只是顶点的属性变为连通图中最小的顶点ID。2.算法 grpahx源码import scala.reflect.ClassTagimport org.apache.spark.graphx._object ConnectedComponents { /** * Compute the connecte...
graphx-pagerank 1.算法描述pagerank算法里面,要设置一个随机重置概率,主要为了解决顶点自循环和顶点没有出边造成的问题。2.代码import org.apache.spark.graphx.GraphLoaderimport org.apache.spark.sql.SparkSessionobject PageRankExample { def main(args: Array[Str...
graphx-最短路径 1.最近在总结图计算,把相关算法实现贴出来,坐下总结,作为督促。算法实现多数是graphx。package org.apache.spark.graphx.algorithmsimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.graphx.{EdgeDirection, VertexId, Gr...