自然语言处理---新词发现---微博数据预处理

在NLP项目中,面临新词发现及情感倾向分析的挑战。首要任务是对提供的大量2012年7月微博数据进行预处理。包括逐行读取Java处理大数据量,避免Python直接读取导致崩溃,以及使用正则表达式去除昵称、微博号、链接、@提及和数字等无效信息。
摘要由CSDN通过智能技术生成

最近NLP课程,需要做新词语发现以及新词语情绪倾向性的project,难搞。但依然还是要前行,无所畏惧的前行,尽可能的搞定它!

首先需要对boss给的数据进行初步地预处理,然后才能进行下一步地新词发现任务。记录下来:

1.观察所给的微博数据,如何提取其中的微博以及怎样才能更好的进行新词语发现。(废话!!!)

2.所涉及的数据量较大,数据为2012年7月的,有1833307行,每条微博平均30个字,838670K。故只能用Java一行行地读取处理,python还是没发现如何能一行行地读取数据,整个文件读取,崩溃。故只需要。

3.提取微博,其中的昵称、微博号、链接、@某人、数字等无效的需要去掉,正则匹配即可。

import java.io.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Data_Preproces {
	public static void main(String[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值