python的set在大数据分析中的应用

1.python中set数据结构说明

set(集合)是一个无序不重复元素的集,并且这些元素不需要是相同类型的数据。其基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和sysmmetric difference(对称差集)等数学运算。

2.set基本用法

  1. 初始化一个set变量:
>>> x = set('spam')  
>>> y = set(['h','a','m'])  
>>> x, y  
(set(['a', 'p', 's', 'm']), set(['a', 'h', 'm']))  
  1. 来一些基本的操作:
#计算出两个集合的交集
>>> x.intersection(y)
set(['a', 'm'])

#计算两个几个的并集
>>>x.union(y)
set(['a', 'p', 's', 'h', 'm'])

#计算两个集合的差
>>>x.difference(y)
set(['p', 's'])

#对称差集
>>>>print x.symmetric_difference(y)
set(['h', 's', 'p'])

#去重
>>>t = set("Hello")
>>>>t
set(['H', 'e', 'l', 'o'])  #注意返回结果里只有一个"l"

#添加元素
>>>t.add("ss")
>>>t
set(['ss', 'H', 'e', 'l', 'o'])

#删除元素
>>>>t.discard("ss")
>t
set(['H', 'e', 'l', 'o'])

3.总结

在数据分析中,对于百万级别的数据,有时候我们选择用python直接进行分析,那么应用set这种数据结构可以很好地对数据进行去重,删除,数据碰撞等操作。

会计研究文本数据的重要性显着增加。 为了帮助研究人员理解和使用文本数据,本专着定义和描述了文本数据的常用度量,然后演示了使用 Python 编程语言收集和处理文本数据。 该专着充满了示例代码,这些代码复制了最近研究论文的文本分析任务。在专着的第一部分,我们提供了 Python 入门指南。 我们首先描述 Anaconda,它是 Python 的一个发行版,它提供了文本分析所需的库及其安装。 然后,我们介绍了 Jupyter notebook,这是一种改进研究工作流程并促进可复制研究的编程环境。 接下来,我们将教授 Python 编程的基础知识,并演示使用 Pandas 包的表格数据的基础知识。专着的第二部分重点介绍会计研究常用的特定文本分析方法和技术。 我们首先介绍正则表达式,这是一种用于在文本查找模式的复杂语言。 然后我们将展示如何使用正则表达式从文本提取特定部分。 接下来,我们介绍将文本数据(非结构化数据)转换为表示感兴趣变量(结构化数据)的数值度量的想法。 具体来说,我们介绍了基于字典的方法:1) 测量文档情绪,2) 计算文本复杂度,3) 识别前瞻性句子和风险披露,4) 收集文本的信息量,以及 5) 计算不同片段的相似度文本。 对于这些任务的每一个,我们都引用了相关论文并提供了代码片段来实现这些论文的相关指标。最后,专着的第三部分侧重于自动化文本数据的收集。 我们介绍了网络抓取并提供了从 EDGAR 下载文件的代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值