自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(9)
  • 资源 (13)
  • 收藏
  • 关注

原创 DBInputformat 理解

Mapreduce 从传统数据库 oracle  mysql 等等读取数据到hdfs  hive 等分布式存储系统在业务中是很常见,除了自己写自定义的inputformat格式,hadoop为我们提供了 DBInputFormat类,这个类原理很简单,getInputSplits函数为我们提供了如何来切分oracle或者mysql中的源数据, 分散到N个 MapTask当中去publi

2015-01-27 22:05:01 1155

原创 hive 使用本地模式

0.7版本后Hive开始支持任务执行选择本地模式(local mode)。大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过,有时hive的输入数据量是非常小的。在这种情况下,为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间会明显被缩短。   

2015-01-27 17:38:55 2765

原创 hive 的配置项说明

hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默

2015-01-27 17:25:05 1000

原创 Hive 配置详细 说明

hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python ,null的话就是直接执行<script c

2015-01-23 17:22:26 1096 2

原创 hbase 系统 hbase-site.xml 配置说明

hbase.rpc.engine   org.apache.hadoop.hbase.ipc.WritableRpcEngine       hbase.hregion.max.filesize   10737418240       hbase.rootdir   hdfs://hadoop01:8020/apps/

2015-01-20 17:28:44 6991

原创 hadoop-2.2.* hdfs-site.xml 配置说明

dfs.cluster.administrators    hdfs       dfs.block.access.token.enable   true       dfs.datanode.failed.volumes.tolerated   0       dfs.repl

2015-01-20 17:27:01 6297

原创 Hadoop-2.2.* 平台 mapred-site文件配置说明

mapreduce.task.timeout   600000       mapreduce.cluster.local.dir   /hadoop/mapred( map 输出数据)的位置,dfs.data.dir 决定存储 HDFS 数据的位置。 -->       mapreduce.reduce.input.

2015-01-20 17:25:16 1811

原创 关于Maptask任务单线程与多线程执行器解读

相比Mpareduce 老版本的API, 新版本的API 在maptask执行map任务的接口设计上有比较大的改动。  在老版的API中, MapRunner的run函数中:public void run(RecordReader input, OutputCollector output, Reporter reporter)        throws IOException 

2015-01-07 14:55:49 1288

原创 基于TextRank的中文摘要抽取算法(一)

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a docum

2015-01-03 13:42:32 7111 1

商业银行数据资产管理体系建设实践报告.pdf

商业银行数据资产管理体系建设实践报告

2023-12-29

用友BIP数据资产入表解决方案 发布与详解.pdf

用友BIP数据资产入表解决方案 发布与详解

2023-12-29

text-classification-cnn-rnn.rar

基于textcnn的广告营销类文本识别模型代码,可运行,语料在本账户的另一个资源中可以下载,直接放到该项目的工程目录下,直接跑起来,基于textcnn在广告文本的二分类识别中还是不错的选择

2020-07-09

广告识别文本.rar

广告营销类,文本语料,人工收集标注出广告类文本和非广告类文本,可直接跑lgb等二分类模型,对于识别一些广告营销类文本的模型训练,是个不错的语料

2020-07-09

待审核的广告营销文本样例.rar

里面有几万个广告营销类的文本,进一步筛选下,可以作为广告文本识别分类模型训练样本,可能部分为正常新闻,需要人工再过滤下

2020-06-05

文本分类训练集.rar

文本分类训练样本集,主要为新闻集,将近万余个样本,已完成标签分类,可用于文本分类模型训练,主要为源文本内容,下载后需要自行中文分词等预处理

2020-05-02

信用评级模型,信用评级模型的12堂课,

信用评级模型的12堂课,详细阐述了互联网金融行业的消费信用风控模型设计,比较经典的风控模型材料 值得下载学习好好看看

2018-05-22

基于行为评分的自动信用卡额度管理系统设计

基于行为评分的自动信用卡额度管理系统设计, 详细介绍了如何基于用户的行为特征来建设信用卡的额度评估系统 设计 架构

2018-05-22

基于SAS平台的信用风险评分卡研究

基于SAS平台的信用风险评分卡研究,希望能够帮助风控评分的研究者

2017-12-12

hadoop集群内lzo的安装与配置

hadoop集群内lzo的安装与配置 搞hadoop的朋友好好看看

2013-07-01

HBase_官方文档-中文翻译

HBase_官方文档-中文翻译,有助于大家研究下hbase原理

2013-07-01

应届生大礼包-通信行业篇

应届生大礼包-通信行业篇 有利于通信专业找工作 涉及到摩托 爱立信 诺西等知名公司 招聘方面的经验

2010-03-22

TI DSPC6000 汇编工具介绍

一本详细介绍TI MS320C6000系列汇编工具的书,对于C6000 DSP开发人员很好用

2010-03-22

LINUX基础知识入门介绍,一本学习linux系统的好书

这本书用来LINUX基础知识入门介绍,一本学习linux系统的好书,希望可以为大家学习linux做点帮助

2009-10-16

内存中引用与指针之间的使用与区别

深入理解引用与指针的关系从现象上看,指针在运行时可以改变其所指向的值,而引用一旦和某个对象绑定后就不再改变。这句话可以理解为:指针可以被重新赋值以指向另一个不同的对象。但是引用则总是指向在初始化时被指定的对象,以后不能改变,但是指定的对象其内容可以改变。

2009-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除