数据分析4csv文件的处理

1.读写csv文件

f1 = open(r'D:\hhh.csv', 'r')
f2 = open(r'D:\111.csv','w')
ttt = f1.readline()   //读入第一行标题行 将其作为字符串并赋给名为header的变量
ttt = ttt.strip()  //使用strip函数去掉字符串两端的空格,制表符和换行符
ttt = ttt.split(',') //使用split函数将字符串用逗号拆分成列表
print(ttt)
for row in f1:
    row = row.strip()
    row_list = row.split(',')
    print(row_list)
    f2.write(','.join(map(str,row_list))+'\n')  //map函数将str函数应用于header_list中的每个元素
    //确保每个元素都是字符串。join函数在header_list中的每个值之间插入一个逗号,将列表转换为一个字符串
f1.close()
f2.close()

2.筛选行
①行中的值满足某个条件
基础python写法:

import csv
f1 = open('url1', 'r')
f2 = open('url2', 'w')
file_input = csv.reader(f1)
file_output = csv.writer(f2)
header = next(file_input)       //使用csv模块的next函数读出输入文件的第一行 ,
                                                 赋给名为header的列表变量        
file_output .writerow(header)     //将标题行写入输出文件
for row_list in file_input:
    supplier = str(row_list[0]).strip()   //取出每行供应商名字,赋给名为supplier的变量
    cost = str(row_list[3]).strip('$').replace(',', '') //取出每行数据的成本,赋给名为cost的变量
    if supplier == 'Supplier Z' or float(cost)>600.0:    //检验每行中的这两个数据是否满足条件
        file_output.writerow(row_list)                  //将满足条件的行写入输出文件
f1.close()
f2.close()

pandas写法:

data_frame = pd.read_csv(f1)
data_frame['Cost'] = data_frame['Cost'].str.strip('$').astype(float)
data_frame_meet_condition = data_frame.loc[(data_frame['Supplier Name'].str.contains('Z')) | (data_frame['Cost']>600.0),:]
  //loc函数可以同时选择特定的行与列。在逗号前面设定行筛选条件,逗号后面设定列筛选条件。
data_frame_meet_condition.to_csv(f2,index=False)

②行中的值属于某个集合
基础python写法:

import csv
f1 = open('url1', 'r')
f2 = open('url2', 'w')
file_input = csv.reader(f1)
file_output = csv.writer(f2)
dates = ['1/20/14', '1/21/14']  //创建一个列表变量,其中包含两个特定日期
header = next('file_input')
file_output.writerow(header)
for row_list in file_input:
    date = row_list[4]            //取出每行的日期
    if date in dates:              //检验日期是否属于特定日期
        file_output.writerow(row_list)             //将满足条件的行写入输出文件
f1.close()
f2.close()

pandas写法:

data_frame = pd.read_csv(f1)
data_frame_value_in_set = data_frame.loc[data_frame['Purchase Date'].isin(dates),:]   
               //使用简洁的isin函数
data_frame_value_in_set.to_csv(f2,index=False)

③行中的值匹配于某个模式/正则表达式
基础python写法:

import csv
import re
f1 = open('url1', 'r')
f2 = open('url2', 'w')
file_input = csv.reader(f1)
file_output = csv.writer(f2)
pattern = re.complie(r'(?P<my_pattern>^001-.*)',re.I)
         //使用re模块的compile函数创建一个名为pattern的正则表达式变量
header = next(file_input)
file_output.writerow(header)
for row_list in file_input:
    number = row_list[1]         //取出每行编号
    if pattern.search(number):       //验证标号是否满足正则表达式
        file_output.writerow(row_list)
f1.close()
f2.close()

pandas写法:

data_frame = pd.read_csv(f1)
data_frame_value_matches_pattern = data_frame.loc[data_frame['Invoice Number'].str.startswith("001-"),:]   
               //使用startswith函数来搜取数据
data_frame_value_matches_pattern.to_csv(f2,index=False)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
抖音数据分析CSV文件是用于存储抖音平台的数据,并以CSV格式进行存储和处理文件CSV(Comma-Separated Values)是一种常见的纯文本文件格式,用逗号来分隔每个数据字段。 抖音数据分析CSV文件可以包含各种类型的数据,如用户信息、视频信息、互动信息等。每一行代表一个数据记录,每一列代表一个数据字段。通过对这些数据进行分析和挖掘,可以了解用户行为、内容趋势和平台运营情况等。 对于抖音数据分析,可以使用各种工具和技术进行。例如,可以使用Python的pandas库来读取和处理CSV文件,使用matplotlib和seaborn等库进行数据可视化,使用机器学习算法进行预测和分类。 通过对抖音数据分析CSV文件,我们可以得到很多有用的信息。首先,我们可以分析用户行为,比如用户的观看习惯、点赞和评论行为等,从而了解用户对不同类型视频的偏好。其次,我们可以分析视频信息,比如视频的播放量、转发量、发布时间等,从而了解哪些视频在平台上表现较好。另外,我们还可以分析用户互动信息,如用户之间的关注关系、用户之间的互动行为等,从而了解用户社交网络的结构。 通过对抖音数据分析CSV文件,我们可以为抖音平台的运营和内容制作提供实时和精准的数据支持。这样的数据分析有助于抖音平台了解用户需求、改进用户体验、优化内容推荐算法,从而提升平台的用户满意度和活跃度。同时,也可以为内容创作者提供指导,帮助他们更好地制作热门和受欢迎的视频。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值