![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
睡了皮皮虾
心态要好,啥都能好!
展开
-
spark中ml机器学习库的朴素贝叶斯模型实现中文文本信息的文类预测
数据预处理原始数据如图所示,我们要提取用户的输入文本信息,即“日本件如何收费” 首先过滤掉其他不含用户输入的文本行 然后以特定字符“含中文”为切割 提取文本信息中文分词采用ansj中文分词工具,对预处理后的数据进行分词建立训练语料自定义五个类别及其标签:0 运费、1 寄件、2 人工、3 改单、4 催单、5 其他业务类。 从原数据中挑选一部分作为训练语料和测试语料 建立模型测试并保存impo原创 2017-07-31 16:31:44 · 1301 阅读 · 0 评论 -
Spark下四种中文分词工具使用
Spark下四种中文分词工具使用hanLPansjjiebafudannlp获取四种分词工具 在maven 项目工程下的 pom.xml文件中添加 点击import即可完成对前三种的获取 <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg</artifactId>原创 2017-07-28 17:04:22 · 16350 阅读 · 2 评论 -
hivemall之时间序列数据异常检测
一、安装及其官方使用示例安装hivemall$ git clone https://github.com/apache/incubator-hivemall.git$ cd incubator-hivemall$ bin/build.sh启动hive和导入相关 jaradd jar /home/hadoop/incubator-hivemall/target/hivemall-core-0.4.原创 2017-08-15 10:57:09 · 2060 阅读 · 1 评论 -
crontab定时提交Spark任务
Centos 6.5系统下crontab默认自动开启1、编写一个crontab脚本,命名规则*.cron2、用vi 打开这个脚本添加定时任务,格式如下# Example of job definition:# .---------------- minute (0 - 59)# | .------------- hour (0 - 23)# | | .---------- day of month...原创 2018-04-13 09:32:34 · 1506 阅读 · 1 评论 -
通过nginx反向代理查看内网Spark UI
1.下载nginx_substitutions_filter并解压git clone git://github.com/yaoweibin/ngx_http_substitutions_filter_module.git2.安装nginx wget http://nginx.org/download/nginx-1.4.2.tar.gz 3.编译安装 sudo ./configure --pre...原创 2018-04-13 15:16:59 · 1036 阅读 · 0 评论 -
Zookeeper集群搭建
集群信息master h101slave1-10 h102-h111首先在master节点下操作cd /usr/local下载稳定版本的zookeepersudo wget http://mirrors.hust.edu.cn/apache/zookeeper/stable/zookeeper-3.4.12.tar.gz解压sudo tar -zxvf zookeeper-3.4.12.tar.g...原创 2018-05-18 10:37:39 · 272 阅读 · 0 评论 -
Spark+zookeeper
基于zookeeper 的Spark HA配置说明首先按照zookeeper,见上一篇配置spark.env.sh将SPARK_MASTER_IP 一行删除增加export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=h101:2181,h102:2181,h1...原创 2018-05-18 11:36:40 · 1497 阅读 · 0 评论