- 博客(38)
- 资源 (10)
- 问答 (1)
- 收藏
- 关注
转载 MLP,MAP,贝叶斯估计在NLP中参数估计
以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。1、最大似然估计MLE首先回顾一下贝...
2018-05-08 16:14:48
1426
原创 linux 查找所有文件包含指定内容,并替换
find ~ -name "*.sh" -exec grep -E -l "\-\-jars.*cpddnn-1\.0-SNAPSHOT\.jar" {} \;查找所有包含 --jars cpddnn-1.0-SNAPSHOT.jar 内容的文件,注意特殊符号转义grep -l 是list出文件名,-E 使用正则 -o 只列出匹配的行find ~ -name "*.sh" -exe...
2018-03-13 20:46:01
3330
原创 极简 linux find 命令
1 、find . -path "./log" -prune -o -name "*.*" -type f -size +10c -mtime -1 -exec printf "File:%s\n" {} \;寻找 当前目录(不包括子目录./log)下的 匹配 *.* 的普通文件,而且要大小大于10字节,修改时间在一天之内,然后执行打印操作。find . 当前目录 -prune ...
2018-03-13 16:38:02
269
转载 spark dataframe操作集锦
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(cou...
2018-03-02 18:04:42
1612
转载 Python 变量作用域
变量作用域(scope)在Python中是一个容易掉坑的地方。 Python的作用域一共有4中,分别是:L (Local) 局部作用域E (Enclosing) 闭包函数外的函数中G (Global) 全局作用域B (Built-in) 内建作用域以 L –> E –> G –>B 的规则查找,即:在局部找不到,便会去局部外的局部找(例如闭包),再找不到就会去全局找,再
2018-01-10 21:37:20
599
转载 python 理解闭包
1. 函数在 Python 中,使用关键字 def 和一个函数名以及一个可选的参数列表来定义函数。函数使用 return 关键字来返回值。定义和使用一个最简单的函数例子:Python1234>>> def foo():... return 1>>> foo()1函数体(和
2018-01-10 14:56:01
349
转载 shell中各种括号()、(())、[]、[[]]、{}的作用
mark一下,转自:http://blog.csdn.net/ztf312/article/details/52317571技巧小结:字符串比较用双中括号[[ ]];算数比较用单中括号[ ]——左右留空格算数运算用双小括号(( )) ;shell命令及输出用小括号( )——左右不留空格快速替换用花括号{ }——左右留空格反单引号起着命令替换的作用` `
2017-12-02 20:26:13
2072
原创 xargs的使用
xargs 可以读入 stdin 的资料,并且以空白字元或断行字元作为分辨,将 stdin 的资料分隔成为 arguments-t 先输出命令,再输出值,-n 一次输出多少个值,默认全部 。这里\\ 只输出一个 \ 。 指定 -0 选项,则 空字符或者元字符 当作一般字符,-d 指定分割字符 为一个空格 ' ',所以会输出空格,-i -I 大写I
2017-11-30 22:58:32
220
转载 spark调优
mark一下,转自美团技术点评的2篇博文前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Sp
2017-11-23 22:08:04
183
转载 交叉熵
作者:知乎用户链接:https://www.zhihu.com/question/41252833/answer/108777563来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q,其中p为真实分布,q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平
2017-11-23 14:56:37
396
原创 git常用整理
git config --global user.name ''git config --global user.email ''git config --system alias.st status //重命名git config --system color.ui true //--system 对系统设置进行修改,--global 对用户设置git init 现有
2017-11-22 13:40:53
315
原创 Linux文本处理3大利器sed grep awk
一、grep(Globel search Regular Expression and Print out the line)grep格式:grep [选项] [模式] [文件...]-A n:表示显示该行及其后n行-B n:表示显示该行及其前n行-C n:表示显示该行及其前后各n行--color 匹配的项用不同颜色显示匹配的目标字符串中包含元字符,
2017-11-07 19:20:16
321
转载 maven整理
一、pom.xml project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apa
2017-11-02 18:54:13
898
转载 spark加载外部资源方式
首选说明spark加载文件:1、采用 Source. fromFile (LocalPath)方式加载,可加载本地文件,这里本地文件指的是非集群方式2、加载hdfs,sc.textfile()3、采用 sc.textFile(“file:///path to the file/”),要求本地文件必须存在集群上的所有节点,且路径相同 (集群模式),local模式可以加载。个人测试机
2017-11-02 18:39:37
6607
转载 Ant初识
1,什么是antant是构建工具2,什么是构建概念到处可查到,形象来说,你要把代码从某个地方拿来,编译,再拷贝到某个地方去等等操作,当然不仅与此,但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的,所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多,可能你用了很久,你仍然
2017-10-31 18:04:29
257
原创 sparksql 正则匹配总结
这里对sql常用的一些正则匹配作一些匹配,都是来源别人博客,此处稍作整理和总结。mark一下1、sql中有like 和 rlike,具体区别like:%:匹配零个及多个任意字符 _:与任意单字符匹配 []:匹配一个范围 [^]:排除一个范围 ESCAPE 关键字定义转义符 WHERE ColumnA LIKE '%5/%%' ESCAPE '/'
2017-10-25 13:19:54
37615
转载 Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json
2017-10-25 11:51:30
257
转载 Spark存储与读取文件方法小结
http://blog.csdn.net/buring_/article/details/42424477 mark一:Spark中常常面临这RDD的存储问题,记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先:在写文件的时候,经常输出的目录以及存在,需要一个删掉目录以及存在的情况。大致功能
2017-10-25 10:34:36
2010
转载 Hadoop中的文件格式
http://blog.csdn.net/bingduanlbd/article/details/52088520 mark 一下,原先看过,再复习。Hadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分
2017-10-25 10:19:15
700
转载 Scala容器库(Scala’s Collections Library)
简介(Introduction)Martin Odersky和Lex Spoon在许多人看来,新的集合框架是Scala 2.8中最显著的改进。此前Scala也有集合(实际上新框架大部分地兼容了旧框架),但2.8中的集合类在通用性、一致性和功能的丰富性上更胜一筹。即使粗看上去集合新增的内容比较微妙,但这些改动却足以对开发者的编程风格造成深远的影响。实际上,就好像你从事一个高层
2017-10-23 10:50:08
322
转载 认识SparkSQL中的Catalyst
本文主要介绍SparkSQL的优化器系统Catalyst,上文讲到其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等),因此通过本文的学习也可以基本了解所有其他SQL处理引擎的工作原理。SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于
2017-10-12 20:00:29
273
转载 argparse - 命令行选项与参数解析
argparse模块作为optparse的一个替代被添加到Python2.7。argparse的实现支持一些不易于添加到optparse以及要求向后不兼容API变化的特性,因此以一个新模块添加到标准库。与optparse相比较argparse的API类似于optparse,甚至在很多情况下通过更新所使用的类名和方法名,使用argparse作为一个简单的替代。然而,有些地方在添加新特
2017-10-10 17:47:53
726
转载 Docker、LXC、虚拟机异同
一、Docker在LXC基础上做了什么LXC,一般指Linux Container,即内核容器技术的简称。Docker在内核容器技术上做了什么工作,简单的说,Docker在内核容器技术(Cgroup和Namespace)的基础上,提供了一个更高层的控制工具,该工具包含以下特性:1、跨主机部署。Docker定义镜像格式,该格式将应用程序和其所依赖的文件打包到同一个镜像文件中,从而使其
2017-10-08 13:13:48
2263
转载 AOP 的利器:ASM 3.0 介绍
一、什么是ASM ASM是一个java字节码操纵框架,它能被用来动态生成类或者增强既有类的功能。ASM 可以直接产生二进制 class 文件,也可以在类被加载入 Java 虚拟机之前动态改变类行为。Java class 被存储在严格格式定义的 .class文件里,这些类文件拥有足够的元数据来解析类中的所有元素:类名称、方法、属性以及 Java 字节码(指令)。ASM从类文件中
2017-09-30 15:05:32
450
转载 sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/392887152014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。 Spark1.1.0中变化较大是sparkSQL
2017-09-28 18:21:30
549
原创 Spark体系概况
一、Spark来源Spark依托于Hadoop,原有的Hadoop在刚发布是非常完善的,但随着对Hadoop的深入使用,发现存在许多问题。Hadoop最早的版本是MRv1版本,任务的提交和调度如下。 可知Hadoop主要分成3个主要部分,HDFS提供数据源,JobTrack负责任务的资源分配管理以及任务的调度,TaskTrack主要负责任务的执行。当集群任务较多,JobTrack会出现负
2017-09-25 14:31:05
354
转载 Vmware虚拟机三种网络模式详解
讲的很好,特此转载vmware为我们提供了三种网络工作模式,它们分别是:Bridged(桥接模式)、NAT(网络地址转换模式)、Host-Only(仅主机模式)。打开vmware虚拟机,我们可以在选项栏的“编辑”下的“虚拟网络编辑器”中看到VMnet0(桥接模式)、VMnet1(仅主机模式)、VMnet8(NAT模式),那么这些都是有什么作用呢?其实,我们现在看到的VMnet0表示
2017-09-18 19:58:25
381
原创 scala上下界问题
今天看学习scala上下界,发现在理解下界 [>:] 这个有一点点问题,记录一下。先解释上下界,scala处处是泛型,函数基本也是泛型表示 ,类或者函数后面接一个中括号[T]来标识泛型类别T,类似C++泛型。[R>:T]表示类型R至少比T类型要大,也就是说R至少是T的超类。[R<:T]表示类型R至多为T,即R为T的子类/或者就是T类型。object LowerBound extends A
2017-09-14 15:15:52
567
原创 mac dosbox 配置
mac dosbox 配置 mac上的配置文件是 ~/Library/Preferences/Dosbox 0.74 Preferences 打开这个文件进行配置就好, 添加 mount c: /Users/lvdan19900510/Downloads/debug/ (你自动的debug目录) 将debug的目录挂载到c: 下次启动直接自动挂载,还可以把一些编译,链接等工具
2017-05-24 13:02:44
2771
原创 Clion 在使用cmake编译 apue.h遇到的问题
最近在Clion该IDE上测试一下apue上的例子,但是发现链接找不到函数的问题,这是由于cmake在编译c代码和c++代码产生的函数名不一致问题。 主要是 cmake对 apue.h 采用c编译,main.cpp是g++编译造成的。 解决方法: 1、在cmakelist中设置#set(CMAKE_C_COMPILER g++) 将C编译器强制转为g++(不推荐) 2、#set_source
2017-01-12 18:18:34
1641
翻译 C++11的6种内存序总结
对于C++11的6种并发查了不少相关资料,这里作一个总结和理解std::memory_order_relaxed,std::memory_order_consume,std::memory_order_acquire,std::memory_order_release,std::memory_order_acq_rel,std::memory_order_seq_cst粗浅理解(了解大概)编译器优化
2017-01-05 22:05:11
29526
8
翻译 C++的继承,多继承,虚继承的对象分布的总结
根据几篇博客C++对象模型,c++涉及继承和虚继承时的内存布局 ,C++ 对象的内存布局(上) 作了一些归纳和总结,留着备用吧。 讨论问题:单继承内存布局?单继承(虚继承,virtual继承)的布局?多继承内存布局?虚继承内存布局?1、单继承(非虚继承)先看单继承的例子:#include<iostream>using namespace std;class Parent{
2016-12-29 18:24:22
1017
翻译 MFC消息响应原理和深入分析的整理
首先对于这个映射机制有点类似一个表。就是一个消息对应于一个消息处理函数,这也就是映射。这里要知道MFC的一个窗口创建过程一、MFC的入口点与简单的执行过程MFC隐藏了windows程序的入口点winMain,其实是在appmodule.cpp文件下,该入口点调用MFC的全局函数AfxWinMain作为MFC的入口点然后AfxWinMain会进行一些初始化操作,并执行全局CW
2013-05-07 16:52:18
1443
转载 C和C++中存储区域详解(栈、堆、全局...)
一. 在c中分为这几个存储区1.栈 - 由编译器自动分配释放2.堆 - 一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收3.全局区(静态区),全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。- 程序结束释放4.另外还有一个专门放常量的地方。- 程序结束释放在函数体中定义的变量
2013-04-16 09:58:11
674
转载 Java IO流分析整理
Java中的流,可以从不同的角度进行分类。按照数据流的方向不同可以分为:输入流和输出流。按照处理数据单位不同可以分为:字节流和字符流。按照实现功能不同可以分为:节点流和处理流。输出流:输入流:因此输入和输出都是从程序的角度来说的。字节流:一次读入或读出是8位二进制。字符流:一次读入或读出是16位二进制。字节流和字符流的原理是相同的,只不过处理
2013-03-21 11:30:09
595
转载 linux下挂载(mount)光盘镜像文件、移动硬盘、U盘、Windows网络共享和NFS网络共享
挂接命令(mount) 首先,介绍一下挂接(mount)命令的使用方法,mount命令参数非常多,这里主要讲一下今天我们要用到的。 命令格式: mount [-t vfstype] [-o options] device dir - 挂接命令(mount) 首先,介绍一下挂接(mount)命令的使用方法,mount命令参数非常多,这里主要讲一
2013-01-15 10:34:47
596
转载 JSP中pageEncoding和charset区别,中文乱码解决方案
摘要: JSP指令标签中%@ page contentType="text/html;charset=GB2312"%这句有什么用途?关于JSP页面中的pageEncoding和contentType两种属性的区别: pageEncoding是jsp文件本身的编码 contentType的charset ...JSP指令标签中这句有什么用途?关于JSP页
2012-10-12 11:49:06
829
转载 从块级元素和内联元素浅谈标签的嵌套规则
从一个问题说起吧------------div能不能放在p标签里面???首先还是一个老概念:块级元素---h1,h2,h3,h4,h5,h6,hr,div,fieldset,form,dl,address,ol,p,table,ul,pre等常见内联元素---a,b,br,em,i,img,input,strong,textarea,span,label等常见 他们两
2012-08-05 10:56:54
572
python2.7 文档,python中文学习手册,python核心编程高清(第二版),标准库(中文版)
2012-12-27
C++ 默认构造函数问题
2016-12-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人