Hive实战：将xml文件处理为txt文件，并用Hive进行微博数据分析

最新推荐文章于 2024-03-24 12:36:41 发布

haixwang

最新推荐文章于 2024-03-24 12:36:41 发布

阅读量2.4k

点赞数 2

分类专栏：项目实践 Hadoop、Spark、Hbase... 文章标签： hive 数据分析 xml 大数据微博数据

本文链接：https://blog.csdn.net/HaixWang/article/details/78303299

版权

一 -xml文件处理

1. 文件简述

源文件来自NLPIR微博博主语料库。数据是xml文件
文件解压后389MB，将近1100万行数据，每个人的数据由14个节点组成
其他（见本文末尾:关于文件）

2. xml处理代码

package per.wanghai;

/**
 * @author 王海[https://github.com/AtTops]
 * @version V1.0
 * @package per.wanghai
 * @Description
 * @Date 2017/10/20 20:50
 */

import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

import java.io.BufferedWriter;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.List;

public class XmlTxt {
   
    private String TXT_FLIENAME = "weibo_3500014.txt";
    String XML_FLIENAME = "D:/JavaStudy/myudf/src/main/weibo_3500014.xml";
    // 对程序运行时间进行记录
    long startTime = System.currentTimeMillis();
    // 调用同一个包中的WriteToFile类的createFlies方法,返回file
    File file_return = WriteToFile.createFile(TXT_FLIENAME);

    // 调用WriteToFile类的BufferedWriter方法，返回buffWriter
    BufferedWriter buffWriter = WriteToFile.openBufferedWriter(file_return);

    /**
     * @throws Exception
     */
    private void test() throws Exception {
        // 创建SAXReader对象
        SAXReader reader = new SAXReader();
        // 读取文件,转换成Document
        Document document = reader.read(new File(XML_FLIENAME));
        // 获取根节点元素对象
        Element root = document.getRootElement();
        /* elementiterator()  方法获取是该节点的孩子节点。
         但某个孩子节点还有子节点，这些子节点并不在这个方法获取的节点中
         (也就是说这里我们获取所有的<person>节点)
        */
        Iterator<Element> iterator = root.elementIterator();
        while (iterator.hasNext()) {
            Element node = iterator.next();
            // 同时迭代当前节点下面的所有一级子节点（我们这里person节点的子节点再无子节点）
            List<Element> listElement = node.elements();

最低0.47元/天解锁文章

haixwang

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive实战：将xml文件处理为txt文件，并用Hive进行微博数据分析

一 -xml文件处理文件简述xml处理代码遇见的问题及解决过程i -nbsp之类的字符无法解析ii -0xc0x11之类的字符无法解析iii -javalangOutOfMemoryError Java heap space二 -写到txtfile工具代码io版三 -Nio版的代码四 -两种版本的效率对比五 -建表加载数据加载数据报错要加载的数据格式与目标表的格式不同查询
复制链接

扫一扫