- 博客(6)
- 资源 (4)
- 收藏
- 关注
转载 Spark:基于jieba分词的特征向量提取
基于jieba分词的对计算机课程名的特征向量提取首先引入包:import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包import com.huaban.analysis.jieba...
2020-03-26 21:40:51 1066
转载 结巴分词5--关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要...
2020-03-26 14:42:54 424
原创 linux 命令批量修改文件内容中某字段
测试文件的内容复制多个测试文件(批量修改)一个四个测试文件,看效果就行两种方法修改1.perl命令替换格式: perl -p -i -e "s/修改的字段/新字段/g" 文件名(别的路径下需加好路径)perl -p -i -e "s/123/888/g" test1.txt test2.txt说明:将test1.txt和test2.txt中的123替换...
2020-03-18 10:47:21 1970
转载 hive按当天日期建立分区表 | 动态往日期分区插入数据
hive建立分区表,以当天日期(“2014-08-15”)作为分区依据,hql如下:CREATE EXTERNAL TABLE IF NOT EXISTS product_sell(category_id BIGINT,province_id BIGINT,product_id BIGINT,price DOUBLE,sell_num BIGINT)PARTITIONED BY ...
2020-03-10 16:05:14 2932
原创 es+spark 读取es中的自定义格式日期时报异常
问题描述:spark读取指定索引/类型的数据,其中有自定义格式的日期数据,读取该日期时报异常User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: ...
2020-03-05 20:29:21 2280
原创 elasticsearch查询某个字段为空值的结果
传统sql查询返回某个字段为空值的结果写法是select * from 表名 where 字段名 is null在elasticsearch中查询语句为GET index/type/_search{ "query": { "bool": { "must_not": { "exists": { "field": "字段名"...
2020-03-03 09:45:03 9118 1
OpenSceneGraph三维渲染引擎设计与实践
2018-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人