自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (24)
  • 问答 (1)
  • 收藏
  • 关注

原创 Apache-Tika解析pdf文档

 public DocumentContent readPath(InputStream stream,Path path) {//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错        BodyContentHandler handler = new BodyContentHandler(100*1024*1024);        Metad...

2017-06-16 11:25:25 1566

原创 Apache-Tika解析pdf文档_李孟_新浪博客

public DocumentContent readPath(InputStream stream,Pathpath){//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = newBodyContentHandler(100*1024*1024); ...

2017-06-16 11:25:25 350

原创 Apache-Tika解析JPEG文档

package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.tika.parse...

2017-06-16 11:14:48 1431 2

原创 Apache-Tika解析JPEG文档_李孟_新浪博客

package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.t...

2017-06-16 11:14:48 309

原创 solr5--pdf文件dataimport增量配置

本人用的是solr5.2.1,上传pdf文档,增量配置按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流https://yq.aliyun.com/articles/70132

2017-06-15 15:57:20 718

原创 solr5--pdf文件dataimport增量配置_李孟_新浪博客

本人用的是solr5.2.1,上传pdf文档,增量配置按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流https://yq.aliyun.com/articles/70132 ...

2017-06-15 15:57:20 244

原创 Hadoop系列--MapReduce运行模式

 1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器      执行命令    hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.WordCountRunner      这种方式会将这个job提交到yarn集群上去...

2017-06-15 15:18:58 954

原创 Hadoop系列--MapReduce运行模式_李孟_新浪博客

1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jarhadoop-mapreduce.jarcom.test.hadoop.mr.wordcount.WordCountRunner 这种方式会将这个job提交到yarn集群...

2017-06-15 15:18:58 284

原创 ambari系列--报错问题2

ambari HDFS-HA 回滚查看hdfs的信息curl -u admin:admin -H "X-Requested-By: ambari" -X GET http://centos1:8080/api/v1/clusters/hadoop1/services/HDFShadoop1为cluster名字,HDFS为服务名称查看服务centos1,datanode,journaln...

2017-06-08 16:12:54 1829 2

原创 Scala编程基础01

一.Scala简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 二.为什么要学Scala1.优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2.速度快:Scala语言表达能力强,一行代码抵得上Java多行,开...

2017-06-07 15:43:41 1009

原创 Ambari介绍

Ambari目标解决Hadoop生态系统部署 部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。 部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障 组件本身设计:hadoop及其组件需要容忍机器的故障,同时需要防止不兼容 版本组件给系统带来的影响 ...

2017-06-06 16:27:00 1202

原创 Ambari介绍_李孟_新浪博客

Ambari目标解决Hadoop生态系统部署部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障组件本身设计:hadoop及其组件需要容忍机器的故障,同时需要防止不兼容 版本组件给系统带来的影响部署服务:需要能...

2017-06-06 16:27:00 280

原创 ambari安装

1.安装环境说明:三台Centos7Jdk1.7Mysql5.72.操作系统准备2.1配置ssh免密码登录mkdir ~/.ssh/ssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上ssh-copy-id localhost2.2创建ambari系...

2017-06-06 16:11:06 991

原创 solr系列--solrj使用

solrj是solr的java客户端,用于访问solr索引库。它提供了添加、删除、查询、优化等功能。配置jar:/dist/solrj-lib下的所有jarsolr-solrj-5.2.1.jarserver/lib/ext下所有jar如果Maven来构建项目,添加以下代码到你的pom.xml配置文件中<dependency>         <artifactId...

2017-06-06 16:06:52 1135

原创 solr系列--索引库存储在hdfs中

软件准备:1.Tomcat2.solr-5.2.1.tgz3.hadoop-2.7.2运行环境centos7看以前文档hadoop安装好在hadoop-2.7.2/etc/hadoop下的hdfs-site.xml增加了以下内容<property>          <name>dfs.webhdfs.enabled</name>      ...

2017-06-06 16:05:08 2762

原创 solr系列--导入文件

dataimporthandler插件导入pdf从PDF文件中提取文本进行索引首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径:<requestHandler name="/dataimport" class="solr.DataImportHandler"> <l...

2017-06-06 16:03:11 4515 3

原创 ambari系列--报错问题

 hbase 启动不起来,通常是因为节点日期不同步。HDFS 无法启动,通常是因为hdfs 进入了安全模式,需要先退出来,再启动。  hadoop dfsadmin -safemode leave repo源的地址是可以随时更改的。更改路径:admin -> stacks and Versions -> Versions -> 点击框的右上角笔样编辑图标...

2017-06-06 15:40:30 9398 2

数字经济时代-AI加持下的技术与业务创新白皮书

数字经济时代_AI加持下的技术与业务创新_-_人工智能技术应用实践白皮书

2022-11-09

数据资源平台(DataQ)

数据资源平台(DataQ)

2022-08-01

hadoop-2.6.1.zip

Could not locate executabl ....\hadoop-2.2.0\hadoop-2.2.0\bin\winutils.exe in the Hadoop binaries,本地环境缺失winutil.exe,请下载后配置环境变量

2020-06-16

plsql developer 11.zip

oracle连接工具,plsql developer 11+instantclient_11_2(32位),我自己测试完了可以用,配置环境变量,listener.ora,tnsnames.ora就可以使用

2019-07-22

《Spark GraphX实战》_时金魁.pdf

图提供了一种强大的方式来表示和利用数据间的连接。图表示由顶点和顶点连接的边构成的数据点网络。图可以用于各种领域,如计算机视觉、自然语言处理和 推荐系统等。 GraphX 是一个在Spark 之上的图处理层,带来了因为图数据太大单机无法处理的强大的图大数据处理能力。很久之前人们就开始在图处理方面使用Spark ,包括 B age l 这类预处理模块,现在有了标准的图计算模块G raphX ,它提供了一些常用的图算法库。

2019-06-30

自定义rpc框架

RPC—远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。此项目用的是java+netty+zookeeper构建的自定义rpc框架。

2018-09-29

大数据时代总结

大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数 学算法运用到海量的数据上来预测事情发生的可能性。

2018-08-05

数学分析三大基本思想之分解

这样一种数学思想: 将一个复杂的结构或问题,分解成若 干子结构,使得这些子结构尽可能简单 。若按照广义理解,从一个复杂问题中 分离出主要矛盾,这也是一种分解思想。

2018-08-05

数学分析三大基本思想之变换

广义的变换应该作为一种思想 来理解,即对某个数学对象进行操作,转化为另一个对象,要求后者相对容易 处理。

2018-08-05

数学分析三大基本思想之逼近

但凡事大都有主要矛盾,学数学分析也应该抓主要思想。根据笔者这些年对 数学分析的体会,感觉有三大基本思想是数学分析的核心,逼近、变换和分解。 围绕微分、积分和级数这三大主题,展开上述三大基本思想,构成了数学分析 的主干。不论是初学者,还是重温者,抓住上面的主干,就有了方向。本章先 介绍数学分析第一大基本思想:逼近。

2018-08-05

js通用方法

EVENT,集合类,TEXT,CHECKBOX,多选列表,DOM,系统,弹出层,布局调整,页签,拖拽,固定表头,异步请求,分页,下拉菜單,ztree树操作,表格树,提示消息

2018-04-01

solr安装和介绍

详细solr安装和介绍

2017-06-06

ambari安装

详细ambari安装文档

2017-06-06

hadoop2.7.2

2.7.2使用2.2的hadoop.dll和winutils.exe是会报错的,并不能正常使用,现在送上一个管用的~64位的

2017-04-26

微信小程序

针对微信小程序的一些整理

2017-04-11

mondrian-3.11

重新编译过,连接池,编码,版本3.11

2017-04-11

h5下nav导航

nav导航

2017-03-01

viewport响应式模板

viewport响应式模板

2017-03-01

media方法简介

viewport(media)

2017-03-01

html5+css3布局简介

html5+css3布局简介,一种抛弃div布局的一种思想

2017-02-25

html4 自适应

html4 自适应

2016-10-20

hadoop2.4.1伪分布式搭建

hadoop2.4.1伪分布式搭建

2016-10-13

redis详细笔记

1、redis介绍 2、redis安装启动(重点) 3、redis客户端 4、redis数据类型(重点) 5、keys命令(了解) 6、redis的持久化 7、redis的主从复制 8、redis集群配置(重点) 9、redis集群连接(重点)

2016-10-04

基于注解的ssm crud的项目

基于注解的ssm crud的项目,有restful,事务也是注解 springmvc+spring+mybatis

2016-10-04

基于注解ssh的通用dao的crud

基于注解ssh的通用dao的crud,spring4+struts2+hibernate4

2016-10-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除