最近NLP课程,需要做新词语发现以及新词语情绪倾向性的project,难搞。但依然还是要前行,无所畏惧的前行,尽可能的搞定它!
首先需要对boss给的数据进行初步地预处理,然后才能进行下一步地新词发现任务。记录下来:
1.观察所给的微博数据,如何提取其中的微博以及怎样才能更好的进行新词语发现。(废话!!!)
2.所涉及的数据量较大,数据为2012年7月的,有1833307行,每条微博平均30个字,838670K。故只能用Java一行行地读取处理,python还是没发现如何能一行行地读取数据,整个文件读取,崩溃。故只需要。
3.提取微博,其中的昵称、微博号、链接、@某人、数字等无效的需要去掉,正则匹配即可。
import java.io.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Data_Preproces {
public static void main(String[