![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 60
IT_xhf
这个作者很懒,什么都没留下…
展开
-
Flink和Spark中文乱码问题
近期开发Flink CDC 读取mysql数据写入到HDFS,发现写入中文乱码,排查了数据库编码和文件编码都没有问题,后来网上查了一些资料,修改flink.conf文件,新增如下内容Spark中文乱码也排查了数据库编码和文件编码没有问题,在程序启动参数中新增–conf spark.executor.extraJavaOptions=“-Dfile.encoding=UTF-8” --conf spark.driver.extraJavaOptions=“-Dfile.encoding=UTF-8”完整原创 2022-06-08 10:53:52 · 1652 阅读 · 0 评论 -
Spark ML学习相关资料整理
语义分析的一些方法基于Spark Mllib的文本分类SparkML模型选择(超参数调整)与调优 读懂Word2Vec之Skip-Gram Spark的Ml pipeline 基于java的中文分词工具ANSJ ...原创 2018-11-15 09:22:35 · 257 阅读 · 0 评论 -
SparkML-初探-文本分类
Spark机器学习文本分类背景相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析总结背景由于项目组需要对爬虫获取的文本进行归类,最初使用正则表达式按照想到的规则进行解析分类,后来发现这种方式不够灵活,而且不能穷举所有的可能。所以项目组觉得使用最近比较流行的机器学习相关的知识去处理。相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析...原创 2018-11-25 20:33:24 · 732 阅读 · 0 评论 -
spark-DataFrame数据插入mysql性能优化
spark-DataFrame数据插入mysql性能优化简介结果插入mysql源代码解析总结总结简介最近在公司项目有使用spark做数据处理,数据的结果要求写入到mysql或者tidb。spark在做完一系列的rdd操作后得到的结果通过jdbc方式插入到数据,但是插入的数据非常慢。开始研究这一块的代码和寻找性能优化。结果插入mysqlspark给我们做了封装,插入mysql的代码使用非常简...原创 2018-12-29 11:16:20 · 3004 阅读 · 4 评论