- 博客(17)
- 资源 (24)
- 问答 (1)
- 收藏
- 关注
原创 Apache-Tika解析pdf文档
public DocumentContent readPath(InputStream stream,Path path) {//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHandler(100*1024*1024); Metad...
2017-06-16 11:25:25 1566
原创 Apache-Tika解析pdf文档_李孟_新浪博客
public DocumentContent readPath(InputStream stream,Pathpath){//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = newBodyContentHandler(100*1024*1024); ...
2017-06-16 11:25:25 350
原创 Apache-Tika解析JPEG文档
package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.tika.parse...
2017-06-16 11:14:48 1431 2
原创 Apache-Tika解析JPEG文档_李孟_新浪博客
package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.t...
2017-06-16 11:14:48 309
原创 solr5--pdf文件dataimport增量配置
本人用的是solr5.2.1,上传pdf文档,增量配置按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流https://yq.aliyun.com/articles/70132
2017-06-15 15:57:20 718
原创 solr5--pdf文件dataimport增量配置_李孟_新浪博客
本人用的是solr5.2.1,上传pdf文档,增量配置按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流https://yq.aliyun.com/articles/70132 ...
2017-06-15 15:57:20 244
原创 Hadoop系列--MapReduce运行模式
1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.WordCountRunner 这种方式会将这个job提交到yarn集群上去...
2017-06-15 15:18:58 954
原创 Hadoop系列--MapReduce运行模式_李孟_新浪博客
1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jarhadoop-mapreduce.jarcom.test.hadoop.mr.wordcount.WordCountRunner 这种方式会将这个job提交到yarn集群...
2017-06-15 15:18:58 284
原创 ambari系列--报错问题2
ambari HDFS-HA 回滚查看hdfs的信息curl -u admin:admin -H "X-Requested-By: ambari" -X GET http://centos1:8080/api/v1/clusters/hadoop1/services/HDFShadoop1为cluster名字,HDFS为服务名称查看服务centos1,datanode,journaln...
2017-06-08 16:12:54 1829 2
原创 Scala编程基础01
一.Scala简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 二.为什么要学Scala1.优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响用户体验。2.速度快:Scala语言表达能力强,一行代码抵得上Java多行,开...
2017-06-07 15:43:41 1009
原创 Ambari介绍
Ambari目标解决Hadoop生态系统部署 部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。 部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障 组件本身设计:hadoop及其组件需要容忍机器的故障,同时需要防止不兼容 版本组件给系统带来的影响 ...
2017-06-06 16:27:00 1202
原创 Ambari介绍_李孟_新浪博客
Ambari目标解决Hadoop生态系统部署部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障组件本身设计:hadoop及其组件需要容忍机器的故障,同时需要防止不兼容 版本组件给系统带来的影响部署服务:需要能...
2017-06-06 16:27:00 280
原创 ambari安装
1.安装环境说明:三台Centos7Jdk1.7Mysql5.72.操作系统准备2.1配置ssh免密码登录mkdir ~/.ssh/ssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上ssh-copy-id localhost2.2创建ambari系...
2017-06-06 16:11:06 991
原创 solr系列--solrj使用
solrj是solr的java客户端,用于访问solr索引库。它提供了添加、删除、查询、优化等功能。配置jar:/dist/solrj-lib下的所有jarsolr-solrj-5.2.1.jarserver/lib/ext下所有jar如果Maven来构建项目,添加以下代码到你的pom.xml配置文件中<dependency> <artifactId...
2017-06-06 16:06:52 1135
原创 solr系列--索引库存储在hdfs中
软件准备:1.Tomcat2.solr-5.2.1.tgz3.hadoop-2.7.2运行环境centos7看以前文档hadoop安装好在hadoop-2.7.2/etc/hadoop下的hdfs-site.xml增加了以下内容<property> <name>dfs.webhdfs.enabled</name> ...
2017-06-06 16:05:08 2762
原创 solr系列--导入文件
dataimporthandler插件导入pdf从PDF文件中提取文本进行索引首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径:<requestHandler name="/dataimport" class="solr.DataImportHandler"> <l...
2017-06-06 16:03:11 4515 3
原创 ambari系列--报错问题
hbase 启动不起来,通常是因为节点日期不同步。HDFS 无法启动,通常是因为hdfs 进入了安全模式,需要先退出来,再启动。 hadoop dfsadmin -safemode leave repo源的地址是可以随时更改的。更改路径:admin -> stacks and Versions -> Versions -> 点击框的右上角笔样编辑图标...
2017-06-06 15:40:30 9398 2
hadoop-2.6.1.zip
2020-06-16
plsql developer 11.zip
2019-07-22
《Spark GraphX实战》_时金魁.pdf
2019-06-30
自定义rpc框架
2018-09-29
大数据时代总结
2018-08-05
数学分析三大基本思想之分解
2018-08-05
数学分析三大基本思想之逼近
2018-08-05
js通用方法
2018-04-01
redis详细笔记
2016-10-04
推荐:数据中台-协作流程
2021-08-30
TA创建的收藏夹 TA关注的收藏夹
TA关注的人