Python语言作为信息技术高速发展的产物之一,在很多领域都有比较深入的应用,随着大数据技术的发展,可获取的信息量变得越来越大,通过文本挖掘的方法可以快速提取海量文献中的有用信息,追踪热点,在文本资料挖掘和情报获取方面被广泛应用。Python编程语言可以做到快速高效地对不同语言的文献进行词频统计,获取高频词,从而体现文献资料中的主旨。
Python是一种面向对象 编程语言,语法简洁清晰,是目前最受欢迎的一种编程语言。虽然Python可能被粗略地分类为“脚本语言” (script language),但实际上一些大规模软件开发计划例如Zope、 Mnet及Bit Tor-rent,Google也广泛地使用它。Python的 支持者较喜欢称它为一种高级动态编程语言,原因是“脚本语言”泛指仅作简单程序设计任 务的语言,如shellscript、 VB-Script等只能处理简单任务的编程语言,并不能与Python相 提并论。 Python由于包含有丰富的库功能,可以和其他高级语言很广泛地结合。该语言是编程语言中最容易入门的语言,其应用领域包括了后台开发、图像处理、数据挖掘、数据分析、机器学习、神经网络、自然语言处理等。由于Python在科学计算和 自然语言分析方面有着高效、精确的优点,因此在文本挖掘领域有着广泛的应用。对于NLP(自然语言)来说,分词是一步重要的工作,导入Python的jieba库功能,可以准确地对文本内容进行分词。
在线评论文本非常鲜明的特征是简洁性。句式短,字数少,往往三言两语,不能脱离所评论的主体单独存在和判断,但自由灵活、诙谐幽默、情感表述往往比较直接和极端,该文本类型在机器内部均具有相对固定的字节数限制,文本样本的情感做人工标注极性( 积极,消极) 相对简单