**
非关系型数据库MONGODB处理特定格式数据
非关系型数据库简介
平时使用非关系型数据库(hbase、redis、mongodb等nosql数据库),通常会处理一些ppt、word等非规则数据,届时需要使用转码值包或者外部springboot包进行处理,今天主要提及下mongodb是怎么处理或者读写word种类数据
数据格式
在日常的开发和处理数据etl的过程中,在数据存储阶段(拿hive数据仓库举例),textfile、orc、半结构化json、或者压缩数据方式。但是处理文本的数据类型比较少,因为大部分都是以固定的field来进行分割,用户也比较喜欢使用sql来进行数据分析、查询。
处理文本类型的hadoop生态系统组件es、solr就应运而生了。
es的主要处理数据方式是将文本进行单位化,对文件document后进行反向索引链接,并且针对中文文档设计了IK中文分词器,会捕捉热词加亮。
mongdb的处理方式
这边文章主要介绍下mongdb基于java原生代码如何对word、ppt这种非结构化数据进行增删改
1)准备工作 配置maven及依赖包
import com.mongodb.*;
import com.mongodb.client.MongoCollection;
import com.mongodb.client.MongoCursor;
import com.mongodb.client.MongoDatabase;
import com.mongodb.client.result.DeleteResult;
import com.mongodb.client.result.UpdateResult;
import org.bson.Document;
需要用到mongodb客户端的jar包,配置版本一致就好
Document包的作用主要是将文本数据转换成二进制的json数据
2)连接mongodb服务端
public class TestMongoDB {
private static final String HOST = “127.0.0.1”;
private static final int PORT = 27017;
private static final String DB_NAME = “admin”;
private static MongoDatabase db;
private static DB db2;
static {
// 连接到 mongodb 服务
MongoClient mongoClient = new MongoClient(HOST, PORT);
// 连接到数据库
db = mongoClient.getDatabase(DB_NAME);
}
public static void MongoDBJDBC02() {
try {
// 连接到MongoDB服务 如果是远程连接可以替换“localhost”为服务器所在IP地址
// ServerAddress()两个参数分别为 服务器地址 和 端口
ServerAddress serverAddress = new ServerAddress("localhost", 27017);
List<ServerAddress> addrs = new ArrayList<ServerAddress>();
addrs.add(serverAddress);
//三个参数分别为 用户名 数据库名称 密码
MongoCredential credential = MongoCredential.createScramSha1Credential("username", "databaseName", "password".toCharArray());
List<MongoCredential> credentials = new ArrayList<MongoCredential>();
credentials.add(credential);
// 通过连接认证获取MongoDB连接
MongoClient mongoClient = new MongoClient(addrs, credentials);
//连接到数据库
MongoDatabase mongoDatabase = mongoClient.getDatabase("databaseName");
System.out.println("Connect to database successfully");
} catch (Exception e) {
System.err.println(e.getClass().getName() + ": " + e.getMessage());
}
}
使用jdbc连接mongodb服务端,下载驱动包配置localhost和用户名密码即可
3)集合创建,以document为单位进行插入
public static void createCollection() {
try {
System.out.println(“Connect to database successfully”);
db.createCollection(“user”);
System.out.println(“集合创建成功”);
// 获取集合
// 我们可以使用com.mongodb.client.MongoDatabase类的 getCollection() 方法来获取一个集合
MongoCollection collection = db.getCollection(“user”);
System.out.println(“集合 test 选择成功”);
//插入文档
//1. 创建文档 org.bson.Document 参数为key-value的格式
//2. 创建文档集合List<Document>
//3. 将文档集合插入数据库集合中 mongoCollection.insertMany(List<Document>)
//插入单个文档可以用 mongoCollection.insertOne(Document)
Document document = new Document("title", "MongoDB").
append("description", "database").
append("likes", 300).
append("by", "Fly");
List<Document> documents = new ArrayList<Document>();
documents.add(document);
collection.insertMany(documents);
System.out.println("文档插入成功");
} catch (Exception e) {
System.err.println(e.getClass().getName() + ": " + e.getMessage());
}
}
4)更新全部文档
public static void updateDoc() {
try {
MongoCollection<Document> collection = db.getCollection("user");
System.out.println("集合 test 选择成功");
//更新文档 将文档中likes=100的文档修改为likes=200
UpdateResult updateResult = collection.updateMany(eq("likes", 100), new Document("$set", new Document("likes", 200)));
System.out.println(updateResult.getModifiedCount());
} catch (Exception e) {
System.err.println(e.getClass().getName() + ": " + e.getMessage());
}
}
5)对导入文档进行查询
public static void queryEqDoc() {
MongoCollection<Document> collection = db.getCollection("user");
//查询 键为name 值为alen,返回第一个
Document myDoc = collection.find(eq("name", "alen")).first();
System.out.println(myDoc.toJson());
}