python大数据分析实例-Python实现的大数据分析操作系统日志功能示例

本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下:

一 代码

1、大文件切分

import os

import os.path

import time

def FileSplit(sourceFile, targetFolder):

if not os.path.isfile(sourceFile):

print(sourceFile, ' does not exist.')

return

if not os.path.isdir(targetFolder):

os.mkdir(targetFolder)

tempData = []

number = 1000

fileNum = 1

linesRead = 0

with open(sourceFile, 'r') as srcFile:

dataLine = srcFile.readline().strip()

while dataLine:

for i in range(number):

tempData.append(dataLine)

dataLine = srcFile.readline()

if not dataLine:

break

desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt')

with open(desFile, 'a+') as f:

f.writelines(tempData)

tempData = []

fileNum = fileNum + 1

if __name__ == '__main__':

#sourceFile = input('Input the source file to split:')

#targetFolder = input('Input the target folder you want to place the split files:')

sourceFile = 'test.txt'

targetFolder = 'test'

FileSplit(sourceFile, targetFolder)

2、Mapper代码

import os

import re

import threading

import time

def Map(sourceFile):

if not os.path.exists(sourceFile):

print(sourceFile, ' does not exist.')

return

pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}')

result = {}

with open(sourceFile, 'r') as srcFile:

for dataLine in srcFile:

r = pattern.findall(dataLine)

if r:

t = result.get(r[0], 0)

t += 1

result[r[0]] = t

desFile = sourceFile[0:-4] + '_map.txt'

with open(desFile, 'a+') as fp:

for k, v in result.items():

fp.write(k + ':' + str(v) + ' ')

if __name__ == '__main__':

desFolder = 'test'

files = os.listdir(desFolder)

#如果不使用多线程,可以直接这样写

'''for f in files:

Map(desFolder + '\' + f)'''

#使用多线程

def Main(i):

Map(desFolder + '\' + files[i])

fileNumber = len(files)

for i in range(fileNumber):

t = threading.Thread(target = Main, args =(i,))

t.start()

3.Reducer代码

import os

def Reduce(sourceFolder, targetFile):

if not os.path.isdir(sourceFolder):

print(sourceFolder, ' does not exist.')

return

result = {}

#Deal only with the mapped files

allFiles = [sourceFolder+'\'+f for f in os.listdir(sourceFolder) if f.endswith('_map.txt')]

for f in allFiles:

with open(f, 'r') as fp:

for line in fp:

line = line.strip()

if not line:

continue

position = line.index(':')

key = line[0:position]

value = int(line[position + 1:])

result[key] = result.get(key,0) + value

with open(targetFile, 'w') as fp:

for k,v in result.items():

fp.write(k + ':' + str(v) + ' ')

if __name__ == '__main__':

Reduce('test', 'test\result.txt')

二 运行结果

依次运行上面3个程序,得到最终结果:

07/10/2013:4634

07/16/2013:51

08/15/2013:3958

07/11/2013:1

10/09/2013:733

12/11/2013:564

02/12/2014:4102

05/14/2014:737

希望本文所述对大家Python程序设计有所帮助。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python数据分析实例码是一些帮助数据科学家、工程师和数据分析师在Python平台上进行数据分析的代码示例。这些示例代码可以帮助数据分析人员快速理解和掌握Python数据分析的基本原理和技能。 这些示例可以涵盖从数据清洗、可视化、机器学习到人工智能等领域的数据分析问题,例如: 1. 数据清洗:包括数据预处理、数据格式化、数据过滤等等,比如清洗数据、去除错误的数据等。 2. 数据可视化: 包括各种类型的图表和地图展示,比如条形图、饼图和地图可视化等。 3. 机器学习:在Python 使用机器学习模型进行预测和分类,比如逻辑回归、朴素贝叶斯分类器和决策树等。 4. 深度学习:使用深度学习技术处理大量的数据,比如使用神经网络进行图像识别、自然语言处理和语音识别等任务。 总之,Python数据分析实例码可以帮助学习Python数据科学家更快速地进行数据分析和应用,促进了Python数据分析领域的广泛应用。 ### 回答2: Python数据分析实例码提供了丰富的数据分析案例及代码,并可以通过学习这些实例更好地理解Python数据分析领域的应用。这些实例涉及到的领域包括数据预处理、数据可视化及机器学习等,并可以帮助您更好地处理和分析数据。 其包括常用的数据处理和分析库,如Pandas和Numpy,它们可以帮助您处理和操作数据集。同时也包括了可视化库,如Matplotlib和Seaborn。这些库可以帮助您更好地理解数据集的分布和相关性,以便更好地进行数据探索和分析。 Python数据分析实例码还包括一些机器学习相关的案例,如监督学习、无监督学习、深度学习等。它们可以帮助您了解如何使用Python在机器学习领域应用最新技术。 通过Python数据分析实例码的学习,您可以更好地了解Python数据分析领域的应用,并且可以通过实例代码更加深入的理解Python的使用方法。这些实例不仅可以帮助您在处理数据时更加得心应手,还可以帮助您在解决实际问题时更加有效地使用Python。 ### 回答3: Python数据分析实例码是指用Python编写的代码,用于解决数据分析的问题或实现数据分析算法。这类码通常包括数据读取、数据预处理、数据分析和可视化等功能,在实现数据分析的整个过程发挥着重要的作用。 对于数据读取和预处理,Python提供了强大的Pandas库来处理常见的数据类型,例如CSV格式、Excel格式、JSON格式等,并且Pandas库支持基本的数据清洗、处理缺失值、数据变换等功能。而对于数据分析和可视化,Python则提供了Numpy、Matplotlib、Seaborn等库,这些库可以帮助我们进行统计分析和数据可视化,并且具有很高的灵活性和扩展性,可以满足不同场景下的数据分析需求。 以一个简单的数据分析实例为例,给定一份学生成绩的CSV文件,我们希望分析每个学生各科成绩的平均分、标准差等统计指标,并且绘制出每个学生的成绩分布图。以下是Python数据分析实例码: ```python import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 读取数据 df = pd.read_csv('scores.csv') # 计算各科平均分和标准差 df['mean'] = df.mean(axis=1) df['std'] = df.std(axis=1) # 绘制成绩分布图 for col in df.columns[:-2]: sns.displot(df, x=col, hue='name', kind='kde') plt.title('Distribution of %s' % col) plt.savefig('%s.png' % col, dpi=300) plt.show() ``` 该,我们首先使用Pandas的read_csv函数读取CSV文件,并对数据进行预处理,计算各科平均分和标准差,并将计算结果保存在DataFrame。然后,我们使用Seaborn库绘制出各科成绩的分布图,并通过循环批量保存成绩分布图像。最后,我们通过Matplotlib库展示图像。 总之,Python数据分析实例码对于从事数据分析工作的人来说是非常重要的工具之一,可以帮助分析师更高效更快捷地解决实际问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值