使用多线程查询百万条用户数据将汉字转化成拼音

现在有一个需求:用户表里面有将近200万条数据,查询时需要按用户名字的汉语拼音按从a-z排序。有两种解决方案:1.查询时使用数据库自带的CONVERT()函数进行转化,按拼音首字母排序;2.新加一个拼音字段(spell_name),用户注册时,将用户名字的汉语拼音也一并插入数据库。权衡之后我采用了第二种,因为用户量还会持续增长,使用数据库自带的函数会拖慢查询速度,索引也会失效,如果采用第二种加一个拼音字段,就涉及到对原来老数据拼音字段的一个初始化,数据量比较多,使用多线程,在这里记录一下。

1.使用jpinyin和emoji-java将汉字转化成拼音

引入相关jar

        <!--汉字转拼音jar-->
        <dependency>
            <groupId>com.github.stuxuhai</groupId>
            <artifactId>jpinyin</artifactId>
            <version>1.0</version>
        </dependency>
        <!--java操作emoji的jar-->
        <dependency>
            <groupId>com.vdurmont</groupId>
            <artifactId>emoji-java</artifactId>
            <version>4.0.0</version>
        </dependency>

emoji表情处理工具类

public class EmojiDealUtil extends EmojiParser {
    /**
     * 获取非表情字符串
     * @param input
     * @return
     */
    public static String getNonEmojiString(String input) {
        int prev = 0;
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(input.substring(prev, candidate.getEmojiStartIndex()));
            prev = candidate.getFitzpatrickEndIndex();
        }
        return sb.append(input.substring(prev)).toString();
    }

    /**
     * 获取表情字符串
     * @param input
     * @return
     */
    public static String getEmojiUnicodeString(String input){
        EmojiTransformer  transformer = new EmojiTransformer() {
            public String transform(UnicodeCandidate unicodeCandidate) {
                return unicodeCandidate.getEmoji().getHtmlHexadecimal();
            }
        };
        StringBuilder sb = new StringBuilder();
        List<UnicodeCandidate> replacements = getUnicodeCandidates(input);
        for (UnicodeCandidate candidate : replacements) {
            sb.append(transformer.transform(candidate));
        }
        return  parseToUnicode(sb.toString());
    }

    public static String getUnicode(String source){
        String returnUniCode=null;
        String uniCodeTemp=null;
        for(int i=0;i<source.length();i++){
            uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));
            returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp;
        }
        return returnUniCode;
    }
}

汉字转换成拼音的工具类

public class ChineseToPinYinUtil {

    /**
     * 转换为不带音调的拼音字符串
     * @param pinYinStr 需转换的汉字
     * @return 拼音字符串
     */
    public static String changeToTonePinYin(String pinYinStr) {
        String tempStr = null;
        try {
            tempStr = PinyinHelper.convertToPinyinString(pinYinStr, " ", PinyinFormat.WITHOUT_TONE);
        } catch (Exception e) {
            e.printStackTrace();
        }
        return tempStr;
    }
}

拼音转换不做为本文点,网上搜下有很多库和代码解决,主要说下面的多线程处理。

2.使用多线程查询并更新数据库

创建初始容量为5的线程池,每次每个线程查询500条记录并处理,加个同步锁,分配给每个线程它查询的起始记录,查询出记录之后调用上面的汉字转换成拼音方法处理,完毕之后更新到数据库。

2.1接收请求方法
    //每个线程每次查询的条数
    private static final Integer LIMIT = 500;
    //起的线程数
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM, THREAD_NUM*2,0,TimeUnit.SECONDS,new LinkedBlockingQueue<>(100));

    @GetMapping("/chineseToSpellName")
    public void execute(){
        //计数器,一次转换只能一个请求调,不然会出错
        int count = 0;
        logger.info("trans start");
        //查询总记录数
        int total = userService.getTotalCount2();
        logger.info("total num:{}",total);
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要经过的轮数:{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 个线程并行查询更新库,加锁
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    int start = count*LIMIT;
                    count++;
                    pool.submit(new TransTask(start,LIMIT));
                }
            }
        }
    }
2.2多线程处理业务方法
    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查询记录并更新数据库
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新记录起始位置:{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }

3.不使用传统的limit分页查询数据

userService.getList2(start,num)是根据起始位置和查询条数查询记录,以前我们写的分页查询一般是这样写的:select * from table limit start,num(如:select * from user limit 0,20)。这种查询在数据量小时没有问题,但是数据量大的时候查询会非常慢,因为它走的不是索引,而是全表扫描,数据量越大,越到后面速度越慢。对于id是自增长的查询可以采用另一种查询方式,select * from table where id>start limit num(如:select * from user where id>1000 limit 20),从指定id查询num条记录。这种查询即使到百万级数据量,查询速度也不会明显变慢,因为走的是主键索引,而不是全表扫描。

4.优化后记

代码写完之后在实际使用中,数据初始化到70多万条的时候,数据库连接数开的太多,将数据库里面的全部占满了,考虑再次优化,采用分段的方式,传入两个参数,初始化记录和初始化条数。比如第一次初始化0-10万条记录,第二次初始化10到20万条记录,依次类推,这样的好处是可以人工干预,即使出错,也可以只运行出错的这部分区间数据,代码如下:

   //每个线程每次查询的条数
    private static final Integer LIMIT = 500;
    //起的线程数
    private static final Integer THREAD_NUM = 5;
    ThreadPoolExecutor pool = new ThreadPoolExecutor(THREAD_NUM,Integer.MAX_VALUE,0,TimeUnit.SECONDS,
            new ArrayBlockingQueue<>(10));

    @GetMapping("/chineseToSpellName")
    public void execute(@RequestParam("startId") Integer startId,@RequestParam("total") Integer total){
        logger.info("trans start");
        int num = total/(LIMIT*THREAD_NUM) + 1;
        logger.info("要经过的轮数:{}",num);
        for(int j=0;j<num;j++){
            //起 THREAD_NUM 个线程并行查询更新库,加锁
            for(int i=0;i<THREAD_NUM;i++){
                synchronized(ChineseToPinYinController.class){
                    pool.submit(new TransTask(startId,LIMIT));
                    startId+=LIMIT;
                }
            }
        }
    }

    class TransTask implements Runnable{
        int start;
        int limit;
        public TransTask(int start, int limit) {
            this.start = start;
            this.limit = limit;
        }

        @Override
        public void run() {
            //查询记录并更新数据库
            List<User> userList =  userService.getList2(start,limit);
            logger.info("更新记录起始位置:{}--{}",start,limit);
            if(!CollectionUtils.isEmpty(userList)){
                userList.stream().forEach(u -> {
                    u.setSpellName(ChineseToPinYinUtil.changeToTonePinYin(EmojiDealUtil.getNonEmojiString(u.getName())).trim());
                    userService.updateUser2(u);
                }
             );
            }
        }
    }
继“Java开发微信朋友圈PC版系统-架构1.0”之后,debug这段时间日撸夜撸,终于赶在春节放假前给诸位带来了这一系统的架构2.0版本,特此分享给诸位进行学习,以掌握、巩固更多的技术栈以及项目和产品开发经验,同时也为即将到来的金三银四跳槽季做准备! 言归正传,下面仍然以问答的方式介绍下本门课程的相关内容! (1)问题一:这是一门什么样的课程? 很明显,本门课程是建立在架构1.0,即 第1门课程 的基础上发布的,包含了架构1.0的内容,即它仍然是一门项目、产品实战课,基于Spring Boot2.X + 分布式中间件开发的一款类似“新浪微博”、“QQ空间”、“微信朋友圈”PC版的互联网社交软件,包含完整的门户网前端 以及 后台系统管理端,可以说是一套相当完整的系统! (2)问题二:架构2.0融入了哪些新技术以及各自有什么作用? 本课程对应着系统架构2.0,即第2阶段,主要目标:基于架构1.0,优化系统的整体性能,实现一个真正的互联网社交产品;其中,可以学习到的技术干货非常多,包括:系统架构设计、Spring Boot2.X、缓存Redis、多线程并发编程、消息中间件RabbitMQ、全文搜索引擎Elastic Search、前后端消息实时通知WebSocket、分布式任务调度中间件Elastic Job、Http Restful编程、Http通信OKHttp3、分布式全局唯一ID、雪花算法SnowFlake、注册中心ZooKeeper、Shiro+Redis 集群Session共享、敏感词自动过滤、Java8 等等; A.  基于Elastic Search实现首页列表数据的初始化加载、首页全文检索;B.  基于缓存Redis缓存首页朋友圈“是否已点赞、收藏、关注、评论、发”等统计数据;整合Shiro实现集群部署模式下Session共享;C.  多线程并发编程并发处理系统产生的废弃图片、文件数据;D.  基于Elastic Job切片作业调度分布式多线程清理系统产生的废弃图片;E.  基于RabbitMQ解耦同步调用的服务模块,实现服务模块之间异步通信;F.  基于WebSocket实现系统后端 与 首页前端 当前登录用户实时消息通知;G.  基于OKHttp3、Restful风格的Rest API实现ES文档、分词数据存储与检索;H.  分布式全局唯一ID 雪花算法SnowFlake实现朋友圈图片的唯一命名;I.  ZooKeeper充当Elastic Job创建的系统作业的注册中心;J.  为塑造一个健康的网络环境,对用户发的朋友圈、评论、回复内容进行敏感词过滤;K.  大量优雅的Java8  Lambda编程、Stream编程;  (3)问题三:系统运行起来有效果图看吗?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值