自然语言处理---新词发现---微博数据预处理

最新推荐文章于 2024-07-09 17:20:03 发布

无限大地NLP_空木

最新推荐文章于 2024-07-09 17:20:03 发布

阅读量4.8k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/u010454729/article/details/40045927

版权

在NLP项目中，面临新词发现及情感倾向分析的挑战。首要任务是对提供的大量2012年7月微博数据进行预处理。包括逐行读取Java处理大数据量，避免Python直接读取导致崩溃，以及使用正则表达式去除昵称、微博号、链接、@提及和数字等无效信息。

摘要由CSDN通过智能技术生成

最近NLP课程，需要做新词语发现以及新词语情绪倾向性的project，难搞。但依然还是要前行，无所畏惧的前行，尽可能的搞定它！

首先需要对boss给的数据进行初步地预处理，然后才能进行下一步地新词发现任务。记录下来：

1.观察所给的微博数据，如何提取其中的微博以及怎样才能更好的进行新词语发现。（废话！！！）

2.所涉及的数据量较大，数据为2012年7月的，有1833307行，每条微博平均30个字，838670K。故只能用Java一行行地读取处理，python还是没发现如何能一行行地读取数据，整个文件读取，崩溃。故只需要。

3.提取微博，其中的昵称、微博号、链接、@某人、数字等无效的需要去掉，正则匹配即可。

import java.io.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Data_Preproces {
	public static void main(String[

关注

专栏目录