自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Andrew LD

少说话,说做事!

  • 博客(38)
  • 资源 (10)
  • 问答 (1)
  • 收藏
  • 关注

转载 MLP,MAP,贝叶斯估计在NLP中参数估计

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝...

2018-05-08 16:14:48 1426

原创 linux 查找所有文件包含指定内容,并替换

find  ~  -name "*.sh"  -exec  grep -E  -l "\-\-jars.*cpddnn-1\.0-SNAPSHOT\.jar" {} \;查找所有包含  --jars  cpddnn-1.0-SNAPSHOT.jar 内容的文件,注意特殊符号转义grep -l 是list出文件名,-E 使用正则 -o 只列出匹配的行find ~ -name "*.sh"  -exe...

2018-03-13 20:46:01 3330

原创 极简 linux find 命令

1 、find  .  -path "./log"  -prune -o  -name "*.*" -type f -size +10c -mtime -1   -exec  printf "File:%s\n" {} \;寻找 当前目录(不包括子目录./log)下的 匹配 *.* 的普通文件,而且要大小大于10字节,修改时间在一天之内,然后执行打印操作。find . 当前目录   -prune ...

2018-03-13 16:38:02 269

转载 spark dataframe操作集锦

DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(cou...

2018-03-02 18:04:42 1612

转载 Python 变量作用域

变量作用域(scope)在Python中是一个容易掉坑的地方。 Python的作用域一共有4中,分别是:L (Local) 局部作用域E (Enclosing) 闭包函数外的函数中G (Global) 全局作用域B (Built-in) 内建作用域以 L –> E –> G –>B 的规则查找,即:在局部找不到,便会去局部外的局部找(例如闭包),再找不到就会去全局找,再

2018-01-10 21:37:20 599

转载 python 理解闭包

1. 函数在 Python 中,使用关键字 def 和一个函数名以及一个可选的参数列表来定义函数。函数使用 return 关键字来返回值。定义和使用一个最简单的函数例子:Python1234>>> def foo():...     return 1>>> foo()1函数体(和

2018-01-10 14:56:01 349

转载 shell中各种括号()、(())、[]、[[]]、{}的作用

mark一下,转自:http://blog.csdn.net/ztf312/article/details/52317571技巧小结:字符串比较用双中括号[[ ]];算数比较用单中括号[ ]——左右留空格算数运算用双小括号(( )) ;shell命令及输出用小括号( )——左右不留空格快速替换用花括号{ }——左右留空格反单引号起着命令替换的作用` `

2017-12-02 20:26:13 2072

原创 xargs的使用

xargs 可以读入 stdin 的资料,并且以空白字元或断行字元作为分辨,将 stdin 的资料分隔成为 arguments-t 先输出命令,再输出值,-n 一次输出多少个值,默认全部 。这里\\ 只输出一个 \ 。 指定 -0 选项,则 空字符或者元字符 当作一般字符,-d 指定分割字符 为一个空格 ' ',所以会输出空格,-i -I 大写I

2017-11-30 22:58:32 220

转载 spark调优

mark一下,转自美团技术点评的2篇博文前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Sp

2017-11-23 22:08:04 183

转载 交叉熵

作者:知乎用户链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平

2017-11-23 14:56:37 396

原创 git常用整理

git config --global user.name ''git config --global user.email ''git config --system alias.st status   //重命名git config --system color.ui true     //--system 对系统设置进行修改,--global 对用户设置git init 现有

2017-11-22 13:40:53 315

原创 Linux文本处理3大利器sed grep awk

一、grep(Globel search Regular Expression and Print out the line)grep格式:grep [选项] [模式] [文件...]-A n:表示显示该行及其后n行-B n:表示显示该行及其前n行-C n:表示显示该行及其前后各n行--color 匹配的项用不同颜色显示匹配的目标字符串中包含元字符,

2017-11-07 19:20:16 321

转载 maven整理

一、pom.xml project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa

2017-11-02 18:54:13 898

转载 spark加载外部资源方式

首选说明spark加载文件:1、采用 Source. fromFile (LocalPath)方式加载,可加载本地文件,这里本地文件指的是非集群方式2、加载hdfs,sc.textfile()3、采用 sc.textFile(“file:///path to the file/”),要求本地文件必须存在集群上的所有节点,且路径相同 (集群模式),local模式可以加载。个人测试机

2017-11-02 18:39:37 6607

转载 Ant初识

1,什么是antant是构建工具2,什么是构建概念到处可查到,形象来说,你要把代码从某个地方拿来,编译,再拷贝到某个地方去等等操作,当然不仅与此,但是主要用来干这个3,ant的好处跨平台   --因为ant是使用java实现的,所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多,可能你用了很久,你仍然

2017-10-31 18:04:29 257

原创 sparksql 正则匹配总结

这里对sql常用的一些正则匹配作一些匹配,都是来源别人博客,此处稍作整理和总结。mark一下1、sql中有like 和 rlike,具体区别like:%:匹配零个及多个任意字符 _:与任意单字符匹配 []:匹配一个范围 [^]:排除一个范围 ESCAPE  关键字定义转义符  WHERE   ColumnA   LIKE   '%5/%%'   ESCAPE   '/'

2017-10-25 13:19:54 37615

转载 Spark-SQL之DataFrame操作大全

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。  本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成  Spark-SQL可以以其他RDD对象、parquet文件、json

2017-10-25 11:51:30 257

转载 Spark存储与读取文件方法小结

http://blog.csdn.net/buring_/article/details/42424477   mark一:Spark中常常面临这RDD的存储问题,记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先:在写文件的时候,经常输出的目录以及存在,需要一个删掉目录以及存在的情况。大致功能

2017-10-25 10:34:36 2010

转载 Hadoop中的文件格式

http://blog.csdn.net/bingduanlbd/article/details/52088520  mark 一下,原先看过,再复习。Hadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分

2017-10-25 10:19:15 700

转载 Scala容器库(Scala’s Collections Library)

简介(Introduction)Martin Odersky和Lex Spoon在许多人看来,新的集合框架是Scala 2.8中最显著的改进。此前Scala也有集合(实际上新框架大部分地兼容了旧框架),但2.8中的集合类在通用性、一致性和功能的丰富性上更胜一筹。即使粗看上去集合新增的内容比较微妙,但这些改动却足以对开发者的编程风格造成深远的影响。实际上,就好像你从事一个高层

2017-10-23 10:50:08 322

转载 认识SparkSQL中的Catalyst

本文主要介绍SparkSQL的优化器系统Catalyst,上文讲到其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等),因此通过本文的学习也可以基本了解所有其他SQL处理引擎的工作原理。SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于

2017-10-12 20:00:29 273

转载 argparse - 命令行选项与参数解析

argparse模块作为optparse的一个替代被添加到Python2.7。argparse的实现支持一些不易于添加到optparse以及要求向后不兼容API变化的特性,因此以一个新模块添加到标准库。与optparse相比较argparse的API类似于optparse,甚至在很多情况下通过更新所使用的类名和方法名,使用argparse作为一个简单的替代。然而,有些地方在添加新特

2017-10-10 17:47:53 726

转载 Docker、LXC、虚拟机异同

一、Docker在LXC基础上做了什么LXC,一般指Linux Container,即内核容器技术的简称。Docker在内核容器技术上做了什么工作,简单的说,Docker在内核容器技术(Cgroup和Namespace)的基础上,提供了一个更高层的控制工具,该工具包含以下特性:1、跨主机部署。Docker定义镜像格式,该格式将应用程序和其所依赖的文件打包到同一个镜像文件中,从而使其

2017-10-08 13:13:48 2263

转载 AOP 的利器:ASM 3.0 介绍

一、什么是ASM  ASM是一个java字节码操纵框架,它能被用来动态生成类或者增强既有类的功能。ASM 可以直接产生二进制 class 文件,也可以在类被加载入 Java 虚拟机之前动态改变类行为。Java class 被存储在严格格式定义的 .class文件里,这些类文件拥有足够的元数据来解析类中的所有元素:类名称、方法、属性以及 Java 字节码(指令)。ASM从类文件中

2017-09-30 15:05:32 450

转载 sparkSQL1.1入门

http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。      Spark1.1.0中变化较大是sparkSQL

2017-09-28 18:21:30 549

原创 Spark体系概况

一、Spark来源Spark依托于Hadoop,原有的Hadoop在刚发布是非常完善的,但随着对Hadoop的深入使用,发现存在许多问题。Hadoop最早的版本是MRv1版本,任务的提交和调度如下。 可知Hadoop主要分成3个主要部分,HDFS提供数据源,JobTrack负责任务的资源分配管理以及任务的调度,TaskTrack主要负责任务的执行。当集群任务较多,JobTrack会出现负

2017-09-25 14:31:05 354

转载 Vmware虚拟机三种网络模式详解

讲的很好,特此转载vmware为我们提供了三种网络工作模式,它们分别是:Bridged(桥接模式)、NAT(网络地址转换模式)、Host-Only(仅主机模式)。打开vmware虚拟机,我们可以在选项栏的“编辑”下的“虚拟网络编辑器”中看到VMnet0(桥接模式)、VMnet1(仅主机模式)、VMnet8(NAT模式),那么这些都是有什么作用呢?其实,我们现在看到的VMnet0表示

2017-09-18 19:58:25 381

原创 scala上下界问题

今天看学习scala上下界,发现在理解下界 [>:] 这个有一点点问题,记录一下。先解释上下界,scala处处是泛型,函数基本也是泛型表示 ,类或者函数后面接一个中括号[T]来标识泛型类别T,类似C++泛型。[R>:T]表示类型R至少比T类型要大,也就是说R至少是T的超类。[R<:T]表示类型R至多为T,即R为T的子类/或者就是T类型。object LowerBound extends A

2017-09-14 15:15:52 567

原创 mac dosbox 配置

mac dosbox 配置 mac上的配置文件是 ~/Library/Preferences/Dosbox 0.74 Preferences 打开这个文件进行配置就好, 添加 mount c: /Users/lvdan19900510/Downloads/debug/ (你自动的debug目录) 将debug的目录挂载到c: 下次启动直接自动挂载,还可以把一些编译,链接等工具

2017-05-24 13:02:44 2771

原创 Clion 在使用cmake编译 apue.h遇到的问题

最近在Clion该IDE上测试一下apue上的例子,但是发现链接找不到函数的问题,这是由于cmake在编译c代码和c++代码产生的函数名不一致问题。 主要是 cmake对 apue.h 采用c编译,main.cpp是g++编译造成的。 解决方法: 1、在cmakelist中设置#set(CMAKE_C_COMPILER g++) 将C编译器强制转为g++(不推荐) 2、#set_source

2017-01-12 18:18:34 1641

翻译 C++11的6种内存序总结

对于C++11的6种并发查了不少相关资料,这里作一个总结和理解std::memory_order_relaxed,std::memory_order_consume,std::memory_order_acquire,std::memory_order_release,std::memory_order_acq_rel,std::memory_order_seq_cst粗浅理解(了解大概)编译器优化

2017-01-05 22:05:11 29526 8

翻译 C++的继承,多继承,虚继承的对象分布的总结

根据几篇博客C++对象模型,c++涉及继承和虚继承时的内存布局 ,C++ 对象的内存布局(上) 作了一些归纳和总结,留着备用吧。 讨论问题:单继承内存布局?单继承(虚继承,virtual继承)的布局?多继承内存布局?虚继承内存布局?1、单继承(非虚继承)先看单继承的例子:#include<iostream>using namespace std;class Parent{

2016-12-29 18:24:22 1017

翻译 MFC消息响应原理和深入分析的整理

首先对于这个映射机制有点类似一个表。就是一个消息对应于一个消息处理函数,这也就是映射。这里要知道MFC的一个窗口创建过程一、MFC的入口点与简单的执行过程MFC隐藏了windows程序的入口点winMain,其实是在appmodule.cpp文件下,该入口点调用MFC的全局函数AfxWinMain作为MFC的入口点然后AfxWinMain会进行一些初始化操作,并执行全局CW

2013-05-07 16:52:18 1443

转载 C和C++中存储区域详解(栈、堆、全局...)

一. 在c中分为这几个存储区1.栈 - 由编译器自动分配释放2.堆 - 一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收3.全局区(静态区),全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。- 程序结束释放4.另外还有一个专门放常量的地方。- 程序结束释放在函数体中定义的变量

2013-04-16 09:58:11 674

转载 Java IO流分析整理

Java中的流,可以从不同的角度进行分类。按照数据流的方向不同可以分为:输入流和输出流。按照处理数据单位不同可以分为:字节流和字符流。按照实现功能不同可以分为:节点流和处理流。输出流:输入流:因此输入和输出都是从程序的角度来说的。字节流:一次读入或读出是8位二进制。字符流:一次读入或读出是16位二进制。字节流和字符流的原理是相同的,只不过处理

2013-03-21 11:30:09 595

转载 linux下挂载(mount)光盘镜像文件、移动硬盘、U盘、Windows网络共享和NFS网络共享

挂接命令(mount)      首先,介绍一下挂接(mount)命令的使用方法,mount命令参数非常多,这里主要讲一下今天我们要用到的。      命令格式:      mount [-t vfstype] [-o options] device dir  - 挂接命令(mount)     首先,介绍一下挂接(mount)命令的使用方法,mount命令参数非常多,这里主要讲一

2013-01-15 10:34:47 596

转载 JSP中pageEncoding和charset区别,中文乱码解决方案

摘要: JSP指令标签中%@ page contentType="text/html;charset=GB2312"%这句有什么用途?关于JSP页面中的pageEncoding和contentType两种属性的区别:  pageEncoding是jsp文件本身的编码  contentType的charset ...JSP指令标签中这句有什么用途?关于JSP页

2012-10-12 11:49:06 829

转载 从块级元素和内联元素浅谈标签的嵌套规则

从一个问题说起吧------------div能不能放在p标签里面???首先还是一个老概念:块级元素---h1,h2,h3,h4,h5,h6,hr,div,fieldset,form,dl,address,ol,p,table,ul,pre等常见内联元素---a,b,br,em,i,img,input,strong,textarea,span,label等常见  他们两

2012-08-05 10:56:54 572

python2.7 文档,python中文学习手册,python核心编程高清(第二版),标准库(中文版)

想必各位一定在学习python为查找各种资料浪费好多时间吧。现在我把python2.7 文档,python中文学习手册,python核心编程高清(第二版),标准库(中文版)这些都打包了,都放在一个文件夹里面。这些都是学习python的利器。let's python!!!

2012-12-27

windows 程序设计(第五版)

这本经典的教材就不用说了。windows程序设计

2012-02-01

C++ 程序设计基础(周蔼如,林伟键)课后习题答案

PDF版本,是周老师和林老师的,华工学子可以来下载哦。

2012-01-28

北邮 通信原理(第3版) 课后答案

北京邮电大学出版社 (周炯槃 ) 通信原理(第三版)课后答案。

2011-12-11

数字图象处理 matlab 中文版 pdf版

数字图象处理 matlab 中文版 pdf版 我也不想这样

2011-08-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除