ccweiwangweiwu-CSDN博客

原创作家排行榜topN

背景：对于一个小说网站，我们要将作家的受欢迎程度进行一个排序1.对于mysql中：表结构:其中clickcount是该本书被点击的总次数把作家的所有作品总点击数加起来求和再进行排序select sum(a.clickcount) countTotal,a.author,group_concat(a.name) novels_namefrom db_novel.novel awhere 1=1 group by author order by countTotal descgroup_con

2020-12-09 17:36:53 420

原创 es分类聚合

1.很多时候我们都会遇到聚合操作,mysql里面的count就是一种聚合操作，而es中也可以有相应的聚合操作.“aggs”：就是聚合的操作GET novel_true/_search{“query”: {“match_all”: {}},“aggs”: {“category_count”: {“value_count”: {“field”: “category”}}}}运行后发现出错了在novel索引上对[ category]字段分类聚合，通过在kibana上的测试，出现了

2020-12-09 15:38:00 1303

原创自定义词库扩展和停止

分词搜索就是在输入一句话后，将该句话分成若干个词组，然后按照分好后的词组进行搜索。而有时候会出现分成的词组不是我们想要的结果，那么这就需要自定义词库扩展和停止。未自定义扩展词库前:分成卓和师傅两个词组，而我们需要卓师傅和卓师这两个词组。1.自定义词库扩展：在安装插件的config目录下面创建一个.dic文件如我创建的是my.dic在my.dic中加上要分的词组2.在IKAnalyzer.cfg.xml 中的中指定自定义扩展的目录，是绝对路径3.重启es服务4.验证：结

2020-12-08 17:03:18 301

原创 ES分词插件IK Analyzer安装

1.进入插件安装网址https://elasticsearch.cn/download/2.选则要安装的版本3.上传到linux上4.在所安装es的目录下的plugins下创建个ik目录5.将之前下载好的安装包解压到ik目录下unzip elasticsearch-analysis-ik-6.7.0.zip -d /opt/module/elasticsearch-6.7.0/plugins/ik6.重启es服务7.启动时候出现就说明已经安装好了8.验证一下:在kibana上:G

2020-12-08 16:55:52 569 1

原创 sqoop将mysql数据导入到hbase上

bin/sqoop import –connect jdbc:mysql://hadoop102:3306/数据库 –username 用户名 –password 密码 –table 表 –columns ‘表的字段’ –column-family “hbase的列族” –hbase-create-table –hbase-row-key “id” \ (指定rowkey)–hbase-table “要导入到那个hbase表” –num-mappers 1 –split-by id注

2020-12-08 10:09:01 412

原创 sqoop安装centos上

1.wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2.解压tar 包tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/module-C：指定要解压到的地方3.修改配置文件进入到解压后的sqoop后cd confmv sqoop-env-template.sh sqoop-env.shvim sqoop-env

2020-12-08 08:54:20 103

原创 logstash将Mysql数据迁移到ES上

logstash和flume类似都是作数据迁移的工具脚本编写#input:从哪里迁移input {stadin {}jdbc {jdbc_driver_library => “/opt/shell/mysql-connector-java-5.1.49/mysql-connector-java-5.1.49-bin.jar” #mysqljdbc驱动包jdbc_driver_class => “com.mysql.jdbc.Driver” #jdbc驱动jdbc_connect

2020-12-07 16:13:45 514

原创 kibana安装

kibana是基于ES的可视化工具，可以在页面上完成ES的操作，是专门针对ES服务的安装:wget https://artifacts.elastic.co/downloads/kibana/kibana-6.7.0-linux-x86_64.tar.gz将tar包下载到centos上解压tar包:tar -zxf kibana-6.7.0-linux-x86_64.tar.gz -C /opt/module-C：安装到所指定的目录下，我这里安装的是/opt/module修改配置文件:cd

2020-12-06 21:37:03 197 1

原创 logstash 安装配置

logstash是用于数据采集和数据迁移的，我们可以将mysql的数据迁移到es上安装步骤用rpm包安装wget https://artifacts.elastic.co/downloads/logstash/logstash-6.7.0.rpm将rpm包下载下来rpm -ivh logstash-6.7.0.rpm即可logstash安装后的目录:/usr/share/logstash编写脚本地址:/etc/logstash/conf.d...

2020-12-06 21:25:56 190

原创 ES配置，以及常见问题解决记录

在centos上安装ESwget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.7.0.tar.gz下载好后就是个tar包然后解压tar -zxf elasticsearch-6.7.0.tar.gz -C /opt/module-C指定解压到那个位置解压后的es然后进行配置文件配置cd elasticsearch-6.7.0/ 进入es中cd config/ 进入配置文件目录下vim elast

2020-12-06 18:03:26 776

原创 window上用cmd创建python虚拟环境

虚拟环境创建:用命令创建虚拟环境安装虚拟环境的第三方包 virtualenvpip install virtualenv使用清华源安装：pip install virtualenv -i https://pypi.python.org/simple/2.在某一个盘上面创建一个文件夹cd 到这个文件夹virtualenv ENV 在当前目录下创建名为ENV的虚拟环境（如果第三方包virtualenv安装在python3下面，此时创建的虚拟环境就是基于python3的）virtualenv

2020-09-15 10:52:48 2432

原创机器学习推荐系统1.目的，思想，数据来源

最近在看尚硅谷大数据中的教程，讲到了spark机器学习推荐系统。就分层记录一下。推荐系统的目的• 信息过载• 推荐系统• 推荐系统是信息过载所采用的措施，面对海量的数据信息，从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”；面向没有明确需求的人。• 解决如何从大量信息中找到自己感兴趣的信息。• 解决如何让自己生产的信息脱颖而出，受到大众的喜爱。推荐系统的目的好的推荐系统——让三方共赢• 让用户更快更好的获取到自己需要的内容• 让内容更快更好的推送到喜欢它的用户手中•

2020-06-10 11:20:02 641

原创自定义异常状态码

很多时候程序会有异常，可以将异常封装成一个类，用于做统一异常管理，去处理controller中出现的错误/**统一处理异常,处理controller出现的异常,能够精确匹配异常basePackages:处理那个controller下的异常*///@Slf4j日志记录注解，将错误信息记录为日志//@ResponseBody //以json的形式写出去@Slf4j//@ControllerAdvice(basePackages = “com.cc.mall.product.control

2020-06-06 18:51:39 3513

原创 ELment-ui的表单数据校验

1.在标签中:rules=“dataRule” 绑定校验2.在data()中编写dataRuledataRule: {name: [{ required: true, message: ‘不能为空’, trigger: ‘blur’ }],logo: [{ trigger: ‘blur’ }],descript: [{ required: true, message: ‘不能为空’, trigger: ‘blur’ }],showStatus: [{ required: tru

2020-06-06 16:22:16 419

原创 JSR303数据验证

.JSR303 数据校验(1)给要校验的Bean添加校验注解,校验注解参照javax.validation.constraints这个包下例如在entity中对要注解的字段加上相应的校验注解如:@URL就是要输入的内容一定要是一个URL地址还可以在校验注解中添加message参数用于失败后的提示信息@Pattern是自定义注解，在里面可以写相应的正则表达式(2)开启校验功能在控制器中对需要校验的对象添加@Valid注解效果：校验错误以后会有默认的响应如果只是在字段中添

2020-06-06 16:10:53 134

原创 oss如何解决跨越问题

阿里云oss如何解决post请求跨域问题先进入OSS管理控制台–》Bucket列表–》权限管理—》最下面有个跨域设置—》点击设置创建规则—》将来源，允许Headers设置为允许让问的，选择Post方法，确定即可如果还有问题的话可能是自己电脑时间问题可以百度让电脑时间与服务器时间同步，找到同步时间步骤应该就可以了...

2020-06-06 12:14:11 606

原创在linux下mysql如何执行sql脚本

很简单：先进入Mysqlmysql -uroot -p密码出现mysql >时候执行source 脚本所在的位置(要全路径)就可以了

2020-03-21 15:30:32 1344

原创 Hadoop的数据倾斜如何解决

什么是数据倾斜：数据倾斜分为：数据频率倾斜和数据大小倾斜1.数据频率倾斜：某一个区域的数据量要远远大于其他区域2.数据大小倾斜：部分记录的大小远远大于平均值如何解决数据倾斜:1.抽样和范围分区：对原始数据进行抽样得到的结果集来预设分区边界值2.自定义分区3.使用Combine：Combine可以大量的减少数据倾斜4.采用map join尽量少使用reducer join:之前提到过...

2020-02-29 19:27:03 414

原创 Hadoop的Shffle过程

(写博客主要是为了复习学习到的知识)我们知道Hadoop可能会在Reduce阶段产生数据倾斜，而发生数据倾斜是经历了Shuffle阶段,所以了解Shuffle阶段就很有必要用一张图来描述这个Shuffle的工作流程Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle在经过map方法切片并分为k,v值后进入到环形缓冲区,在环线缓冲区中会进行一次分区，分区以后进行一次排序，...

2020-02-29 19:15:03 166