- 博客(112)
- 资源 (8)
- 收藏
- 关注
原创 ubuntu配置开机服务自启和定时任务
将一些自启脚本放置到/etc/init.d目录下,然后编辑 /etc/rc.local。注:博客又开始更新了,会记录做机器视觉(测距)和自然语言处理的一些实践。在启动脚本时可以打印一些状态信息,用于后期排查使用!可以编辑crontab -e,然后加入定时任务。
2023-07-09 15:10:28 761
原创 特征工程-特征处理
1 特征工程 特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。“工欲善其事,必先利其器”,特征工程可以理解为利其器的过程。2数据采集、数据清洗、数据采样...
2019-10-24 13:16:28 577
原创 MobileNet总结
MobileNet V1MobileNet主要是针对移动端或者嵌入式设备优化的卷积。特点:(1)放弃pooling直接采用stride = 2进行卷积运算。(2)使用depthwise separable convolutions。(3)用两个超参数来控制网络计算速度与准确度之间的平衡,宽度调节参数和分辨率参数,主要用于压缩模型。Depthwise separable convolut...
2019-09-10 14:49:39 1252
原创 Kenlm 使用
总结工作中用到及学习的知识,也算自己的一个笔记。 环境准备 #公司环境为Centos7.3yum install gcc gcc-c++yum install boostyum install boost-develyum install zlibyuminstallzlib-develwget-O-https://kheafield.com/code/kenlm.ta...
2019-05-18 10:36:38 5200 4
原创 语言模型-Ngram
总结工作中用到和学习的知识,也算自己的一个笔记。 语言模型 语言模型简单来讲,就是计算一个句子的概率,更确切的说是计算组成这个句子一系列词语的概率。 举个简单的例子,我们知道“武松打死了老虎”相比于“老虎了死武松打”,更像是一句正常的话,这是因为前者出现的概率更高。对一句话而言,它的概率举个简单的邮件分类例子,对于垃圾邮件中...
2019-05-17 12:21:21 3793
原创 Tensorflow房价预测案例
1 定义目标函数2. 定义符合的损失函数3.梯度下降,更新参数阿尔法值不同,会影响模型,有可能陷入局部最优解数据归一化使用Tensorflow开发流程...
2019-04-18 17:23:48 542
原创 TensorFlow模块介绍
TensorFlow 模块执行的时候,相当于拓扑排序,先把入度为0的节点加入计算队列,执行完后,更新节点的入度,如果有节点的入度为零,则加入执行队列。为零可能多个,则可以并行执行。(1)并行计算块(2)分布式计算块(cpus,gpus,tpus) (3) 预编译优化(4)可移植性好...
2019-04-18 16:11:13 1282
原创 TensorFlow介绍和安装使用
TensorFlow1.后向传播的发展,促进深度学习,梯度下降2.TensorFlow 创作者 Jeff Dean Google Brain负责人hadoop mapreduce,bigtable pfGPU TPU为tensorflow专研的设备3.智能社会,银行内没有人,活动场景识别、行为识别、OCR+自动审核,身份证人脸图像比较识别落地应用:机器翻译;能源节能:牛奶...
2019-04-18 13:35:27 164
原创 专题机器学习和深度学习---1.python
最近很少写文章,打算把以前的机器学习和深度学习写一个专题,每天都要写一点,写在这里打个卡,也是督促自己。总结下python。python是一个脚本语言。常用的分析库/包(1)numpy :数组,矩阵(2)scipy : 统计、优化、线性代数、信号、图像处理等(3)pandas: 基于numpy,数据框,序列,数据处理,绘图(4)statsmodule 统计检验,统计建模(5)s...
2019-04-17 12:09:14 168
原创 spark 提交jar包优化
1.原因在测试中,使用livy去运行spark程序,采用代码片段的方式。但是应用在启动的,会把本地的jar文件上传到hdfs,然后再从hdfs分发到其它的运算节点,这个很影响性能。可以配置如下内容2.配置之后,应用等待时间,明显降低。第二个参数,主要是删除应用jar的缓存,防止应用过多,占用hdfs存储。...
2018-12-25 16:58:32 666
原创 spark提交脚本,记录相关信息
主要是记录GC的相关内容,每个任务的最大重试次数。/usr/lib/spark/bin/spark-submit --class com.centrality.kBC.kBCDriver --executor-cores 1 --executor-memory 10000M --master yarn-cluster --num-executors 28 --conf spark.driver....
2018-12-21 10:48:13 273
原创 graphx-lpa
1.LPA 标签传播算法,主要是顶点计算函数,选择label标签最多的项,更新顶点的属性。根据相应的业务,可以修改graphx的源码进行修改,改为我们业务中需要的标签值。由于LPA很难保证收敛,所以要设定迭代次数。2.代码object LabelPropagationAlgorithm { /** * Run static Label Propagation for detecti...
2018-12-15 23:36:50 632
原创 graphx-ConnectedComponents
1.ConnectedComponents返回一个与原图结构相同的图,只是顶点的属性变为连通图中最小的顶点ID。2.算法 grpahx源码import scala.reflect.ClassTagimport org.apache.spark.graphx._object ConnectedComponents { /** * Compute the connecte...
2018-12-15 21:52:10 985
原创 graphx-pagerank
1.算法描述pagerank算法里面,要设置一个随机重置概率,主要为了解决顶点自循环和顶点没有出边造成的问题。2.代码import org.apache.spark.graphx.GraphLoaderimport org.apache.spark.sql.SparkSessionobject PageRankExample { def main(args: Array[Str...
2018-12-15 21:05:44 402
原创 graphx-最短路径
1.最近在总结图计算,把相关算法实现贴出来,坐下总结,作为督促。算法实现多数是graphx。package org.apache.spark.graphx.algorithmsimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.graphx.{EdgeDirection, VertexId, Gr...
2018-12-15 20:44:57 1402 1
原创 jausgraph中支持gremlin的操作
public static final String map = "map"; public static final String flatMap = "flatMap"; public static final String id = "id"; public static final String label = "label...
2018-12-02 16:34:46 457
原创 Spark机器学习--treeAggregrate
最近项目不是很忙,把一些东西整理出来,当作笔记,主要是为了养成一个好的习惯。这个主要介绍MLlib源码主要出现的treeAggregratepackage com.lm.spark.mlimport org.apache.spark.{SparkConf, SparkContext}object Treeaggreate { def main(args: Array[String...
2018-11-02 18:54:21 257
原创 cdh apache 下载地址
cdh apache 下载地址1.apache http://archive.apache.org/dist/hadoop/common/2.cdh http://archive.cloudera.com/cdh5/cdh/5/避免找错
2018-09-22 10:38:02 917 1
原创 YARN Resourcemanager引入挖矿病毒的经历
原因由于同事为了测试方便,把YARN RM的8088对外网开放了,导致攻击者可以通过RM 的rest api直接可以提交应用。解决参考博客https://labitacoranet.wordpress.com/2018/05/16/forensic-analysis-of-a-cryptocurrency-mining-attack-in-a-big-data-cluster/我解...
2018-06-01 17:24:49 3348 1
原创 YARN 任务日志存储到HDFS中
场景:公司使用YARN运行非MR、SPARK的任务,任务是一个长期的任务,在测试阶段,任务可能会挂掉,任务产生的日志对于问题的分析是必不可少的。为了保留任务容器产生的日志,在YARN中要配置相应的参数,开启日志聚合等操作。 配置文件如下 yarn-site.xml。我下面只写出日志相关的配置内容<property> <name>yarn.log-...
2018-05-04 14:59:15 3061
原创 rabbit1. 安装
版本号RabbitMQ 3.6.12, Erlang 19.0.4 centos 6.8安装依赖环境yum install xmlto gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel unixODBC-devel wxBase wxGTK wxGTK-gl perl -y下载地址erlang http://ww...
2018-03-21 18:00:40 369
原创 Hadoop YARN ERROR 1/1 local-dirs are bad *, 1/1 log-dirs are bad *
nodemanager log内容yarn web日志修改删除数据目录下不需要的内容,系统可用 参考博客: http://blog.csdn.net/duyuanhai/article/details/54908382
2017-12-26 16:49:26 347
原创 hadoop namenode启动失败解决
问题描述机房测试环境由于停电原因,再次启动namenode节点报错,启动不了,出现如下错误:org.apache.hadoop.hdfs.server.namenode.FSImage: Failed to load image from FSImageFile解决办法把已经启动的namenode节点的元数据信息拷贝到standby节点上,然后再次启动namenode节点。 不推荐重新格式化had
2017-12-19 14:17:21 1893
转载 StringUtils类中isEmpty与isBlank的区别
org.apache.commons.lang.StringUtils类提供了String的常用操作,最为常用的判空有如下两种isEmpty(String str)和isBlank(String str)。StringUtils.isEmpty(String str) 判断某字符串是否为空,为空的标准是 str==null 或 str.length()==0System.out.println(St
2017-12-18 11:33:24 189
原创 Hadoop2.6.1 源码编译
安装jdk,并配置环境变量,此版本的hadoop,jdk要使用jdk 7的,jdk 8会出现异常。 安装protobuf ,版本为2.5.0 安装之前,先要安装一些依赖库 yum install g++ autoconf automake libtool cmake zlib1g-dev pkg-config libssl-dev$ ./configure$ make$ make check
2017-08-31 16:08:21 304
原创 linux 下tmp目录文件怎么被删除的?
tmp目录下文件什么时候会删除?写这篇文章是我要重启长时间运行的hadoop集群的时候,关闭不了相应的服务。查看shell脚本看到,要找到服务的pid文件,才能重启,一般情况下pid文件都会存储在tmp目录下,但是pid文件却不见了为了保证tmp目录不爆满,系统默认情况下每日会处理一次tmp目录文件,原理就是使用了tmpwatch。tmpwatch 作用tmpwatch作用:removes fil
2017-08-07 17:06:00 9836
原创 配置yarn调度器后,自动刷新集群队列
前期配置的容器调度策略,配置之后,然后重启了应用环境,(感觉好蠢),今天在阅读文档的时候,发现可以使用 yarn rmadmin -refreshQueues 命令。
2017-07-31 15:37:03 1341
原创 cp 拷贝文件的时间
拷贝日志文件的时候,为了验证日志的写入顺序,最好加上-p的属性,可以保持文件的原来的时间属性,方便查看,否侧会修改问文件拷贝的当前时间。 cp -rfp source dest
2017-07-10 16:21:32 1507
原创 maven打包跳过测试
取消编译时候的自动测试 org.apache.maven.plugins maven-surefire-plugin true
2017-04-21 18:23:17 245
原创 版本比较
代码package com.liangman.bigdata.spark.coreimport scala.util.control.Breaks/** * 软件版本比较 * 软件版本号一般分为3段, a.b.c * a 表示大版本号 * b 表示功能更新 * c 表示小修改,修复bug * Created by lm on 2017/4/16. */class V
2017-04-16 23:13:07 303
原创 harpc php
Harpc GitHub add:https://github.com/baifendian/harpc问题:harpc原理?怎么加上php支持?rpc的全称是remote procedure call,翻译过来就是远程过程调用。远程调用的意思就是程序调用的方法实现不是在程序所在的本地,而是在远程的某个地方。远程调用的好处就是解耦。当server需要对方法内实现修改时,client完全感知不到,不用
2017-02-21 08:49:19 538
转载 hive大数据倾斜总结
转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.htmlhive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原
2017-01-20 21:05:11 235
scala-2.11.8.tgz
2018-05-11
HTTP权威指南(高清带目录)
2018-04-11
Redis开发与运维 pdf
2018-03-29
《像计算机科学家一样思考Python》
2017-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人