自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(12)
  • 资源 (13)
  • 收藏
  • 关注

转载 Spark通过mapPartitions方式加载Json文件,提高文件加载速度

这几天遇到了需要从hdfs加载json字符串,然后转化成json对象的场景。刚开始的实现方式见如下代码:[java] view plain copy val loginLogRDD = sc.objectFile[String](loginFile, loadLoginFilePartitionNum)       .filter(jso

2017-01-31 23:45:37 643

转载 HadoopRDD 的生成过程解析

Spark经常需要从hdfs读取文件生成RDD,然后进行计算分析。这种从hdfs读取文件生成的RDD就是HadoopRDD。那么HadoopRDD的分区是怎么计算出来的?如果从hdfs读取的文件非常大,如何高效的从hdfs加载文件生成HadoopRDD呢?本篇文章探讨这两个问题。    SparkContext.objectFile方法经常用于从hdfs加载文件,从加载hdfs文件到生成H

2017-01-31 23:44:09 2354

转载 spark rdd 源码解析

RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法:def getPartitions: Array[Partition]def compute(thePart: Partition, context: TaskContext): NextIterator[T]getPartitions()用来告知怎么将i

2017-01-31 23:21:10 631

原创 spark-submit的参数名称解析

执行时需要传入的参数说明Usage: spark-submit [options] [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:port, yarn,  yarn-cluster,yarn-client, local

2017-01-23 23:37:51 4610

原创 Spark 用户日志输出解析

以java版的wordcount代码为例,看不同阶段的用户日志会以什么形式输出public final class JavaWordCount {  private static final Pattern SPACE = Pattern.compile(" ");  public static void main(String[] args) throws Exc

2017-01-23 23:35:50 5575

原创 spark on yarn 的运行模式

Spark on Yarn的两种运行模式实战:此时不需要启动Spark集群,只需要启动Yarn即可,Yarn的ResourceManager就相对于Spark Standalone模式下的Master!(我们启动spark集群是要用到standalone,现在有yarn了,就不用spark集群了)   1、Spark on Yarn的两种运行模式:唯一的决定因素是当前Applicati

2017-01-20 13:35:57 4498

原创 基于一阶 HMM 标注序列算法的分词算法解析

之前看到的有关python写的一篇 基于 一阶HMM 序列标注算法的分词代码,主要是基于B M E S序列状态和维特比算法,对当前的句子进行序列标注,然后基于标注序列进行中文分词,这也是目前主流的分词算法,因此结合代码,进行HMM 分词算法的详细分析,加深序列标注算法的理解,为后面的CRF + LSTM算法进行中文分词打下基础隐马尔科夫模型(HMM)模型介绍HMM模

2017-01-19 16:42:54 1692

原创 Hanlp中基于2阶HMM 序列标注算法进行分词的代码解析

/**     * 让模型观测一个句子     * @param wordList     */    public void learn(List wordList)    {        LinkedList sentence = new LinkedList();        for (IWord iWord : wordList)        {

2017-01-19 15:21:19 1352

转载 关于ROC AUC指标的详细介绍说明

转发一篇对于ROC  AUC 解释比较通俗明了的文章:ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们

2017-01-16 16:57:09 5276

原创 拉格朗日对偶性算法以及在SVM支持向量机中的应用

拉格朗日对偶函数:

2017-01-16 16:26:29 848

原创 核函数的理解一

首先给出官方核函数的定义,其定义如下(可参考统计学习方法):设X是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从X到Η的映射φ(x): X→Η使得对所有的x,y∈X,函数Κ(x,y)=φ(x)∙φ(y),则称Κ(x,y)为核函数,φ(x)为映射函数,φ(x)∙φ(y)为x,y映射到特征空间上的内积。在该定义中,涉及到几个概念

2017-01-04 23:16:25 10625 1

原创 神经网络中的能量函数

能量函数(energy function)一开始在热力学中被定义,用于描述系统的能量值,当能量值达到最小时系统达到稳定状态。在神经网络(Neural Network)中,在RBM中被首次使用。在RBM中,输入层v和隐藏层h之间的能量函数定义为:E(v,h)=∑i∈vaivi+∑j∈hbjhj+∑i∈v,j∈hvihjwij将a,v,b,h和w向量表示成矩阵,这个式子可以

2017-01-03 09:42:27 11315 1

商业银行数据资产管理体系建设实践报告.pdf

商业银行数据资产管理体系建设实践报告

2023-12-29

用友BIP数据资产入表解决方案 发布与详解.pdf

用友BIP数据资产入表解决方案 发布与详解

2023-12-29

text-classification-cnn-rnn.rar

基于textcnn的广告营销类文本识别模型代码,可运行,语料在本账户的另一个资源中可以下载,直接放到该项目的工程目录下,直接跑起来,基于textcnn在广告文本的二分类识别中还是不错的选择

2020-07-09

广告识别文本.rar

广告营销类,文本语料,人工收集标注出广告类文本和非广告类文本,可直接跑lgb等二分类模型,对于识别一些广告营销类文本的模型训练,是个不错的语料

2020-07-09

待审核的广告营销文本样例.rar

里面有几万个广告营销类的文本,进一步筛选下,可以作为广告文本识别分类模型训练样本,可能部分为正常新闻,需要人工再过滤下

2020-06-05

文本分类训练集.rar

文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理

2020-05-02

信用评级模型,信用评级模型的12堂课,

信用评级模型的12堂课,详细阐述了互联网金融行业的消费信用风控模型设计,比较经典的风控模型材料 值得下载学习好好看看

2018-05-22

基于行为评分的自动信用卡额度管理系统设计

基于行为评分的自动信用卡额度管理系统设计, 详细介绍了如何基于用户的行为特征来建设信用卡的额度评估系统 设计 架构

2018-05-22

基于SAS平台的信用风险评分卡研究

基于SAS平台的信用风险评分卡研究,希望能够帮助风控评分的研究者

2017-12-12

hadoop集群内lzo的安装与配置

hadoop集群内lzo的安装与配置 搞hadoop的朋友好好看看

2013-07-01

应届生大礼包-通信行业篇

应届生大礼包-通信行业篇 有利于通信专业找工作 涉及到摩托 爱立信 诺西等知名公司 招聘方面的经验

2010-03-22

LINUX基础知识入门介绍,一本学习linux系统的好书

这本书用来LINUX基础知识入门介绍,一本学习linux系统的好书,希望可以为大家学习linux做点帮助

2009-10-16

内存中引用与指针之间的使用与区别

深入理解引用与指针的关系从现象上看,指针在运行时可以改变其所指向的值,而引用一旦和某个对象绑定后就不再改变。这句话可以理解为:指针可以被重新赋值以指向另一个不同的对象。但是引用则总是指向在初始化时被指定的对象,以后不能改变,但是指定的对象其内容可以改变。

2009-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除