java 清洗数据_[JAVA]清洗latex数据

首先,找出符合条件的文章。

一.清洗公式

格式为

\\begin{equation}...\\end{equation}

\\begin{eqnarray}...\\end{eqnarray}

二.以每段为准,将句子连接,接着进行分句(每行为一个句子)。(暂时不分句)

三.清洗标签

1.清洗公式标签,格式为

(\\$$.*?\\$$)?

(\\$.*?\\$)?

2.清洗文献引用,斜体

\cite{...}

\footnote{...}

{\em ...}

\item

\begin{enumerate} \end{enumerate}

四、词根化

Porterstemmer

五、去停用词

FileExcludeStopWord

另附获取web的文章id与subjects对应信息

保存网页

一.Test

从网页解析数据,通过匹配字符信息来获取文章id、Title、subjects。

二.subjectindex

document-subjects数字化,将subject标注,doc转化。

三、countsort

统计每个subjects包含几个文件,并排序。

四、chooseK

选择符合条件的数据集,选择与K线性增大的数据集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值