python之数据处理与分析常规问题处理

*** python之数据处理与分析常规问题处理**
*


本文思路摘要:
1,讲述数据处理的数据集获取方式;
2.python处理数据常用api讲解;
3.常见问题报错解决;

数据集如何采集;

1.登录kaggle官网获取数据集,官网连接:https://www.kaggle.com/
2.英语网站翻译问题:安装relingo插件,实现英语难词解释,全选也可全文翻译;
插件如图:在这里插入图片描述
puthon处理数据集常用api解释:

主要使用numpy和pandas;

api 个人笔记:
import numpy as np
import pandas as pd

array = np.array([1, 2, 3])
print(array)
series = pd.Series(data=array)
print(series)
print(type(series))

#%%
pd_series = pd.Series(data=array, index=[‘a’, ‘b’, ‘c’])# 添加索引

print(pd_series) # 自带打印类型

print(type(pd_series))

series = pd.Series((1,2,3)) #默认索引0~n
print(series)

#%%
s = pd.Series({‘a’: 1, ‘b’: 2, ‘c’: 3}) # 字典传参
print(s)
print(type(s))
#%%

def1=([{‘a’: 1, ‘b’: 2, ‘c’: 3}])

frame = pd.DataFrame(def1)

print(frame)

def1=pd.DataFrame({‘id’:[1,2,3],‘age’:[22,23,45],‘name’:[‘zhanglaing’,“xufengnian”,“huzhi”]},columns=[“name”,“age”,“id”])
print(def1)
#%%
def2=pd.DataFrame(data={‘id’:[1,2,3],‘name’:[‘zhangla’,“xufengnian”,“huzanfenghi”]})
print(def2)
#%%
def3=pd.DataFrame(data=[(1,“xufengni”,23),(2,“gg”,45)])
print(def3)
#%%
csv = pd.read_csv(‘/root/export/data/nobel_prizes.csv’, index_col=‘id’)
#print(csv)

head = csv.head()
#print(head)

loc = csv.loc[941]
print(loc)
#%%
pd_series1 = pd.Series(data=[1, 2, 3, 4, ], index=[‘a’, ‘b’, ‘c’, ‘d’])

print(pd_series1)

print(len(pd_series1))

print(pd_series1.head(2))

print(f"list{pd_series.to_list}",end=‘\n’)

to_list = pd_series1.to_list
print(to_list)

print(pd_series1.tail())

print(pd_series1.size)

#%%
import pandas as pd

read_csv = pd.read_csv(‘/root/export/data/nobel_prizes.csv’, index_col=‘id’)
read_csv.head()

#%%
loc_ = read_csv.loc[945]
print(loc_)
print(type(loc_))
print(loc_.dtype)
print(loc_[‘year’].dtype) # 打印指定元素类型

print(
loc_.shape
)# 维度
print(loc_.size) #打印元素个数
print(loc_.values) # 获取指定元素的所有值

print(loc_.ages_sort_index) # 获取指定列的索引
print(loc_.ages_sort_index)
print(loc_.keys) # todo 获取指定列的值
print(loc_.keys()) # todo 等同于获取索引

#%%
s1 = pd.Series(data=[1, 2, 3, 4, 2, 3], index=[‘A’, ‘B’, ‘C’, ‘D’, ‘E’, ‘F’])
print(type(s1.to_list)) # <class ‘method’>
print(type(s1.to_frame())) # <class ‘pandas.core.frame.DataFrame’>

print(s1.max()) # 最大值
print(s1.min()) # 最小值
print(s1.sum()) #求和
print(s1.mean()) # 平均值
print(s1.drop_duplicates()) #去重 返回对象
print(s1.unique()) #去重 返回数组
print(s1.sort_values(ascending=True)) # 升序
print(s1.sort_values(ascending=False)) # 降序
print(s1.value_counts()) # 统计每个元素出现的次数

#%%
pd_read_csv = pd.read_csv(‘/root/export/data/movie.csv’)
movie = pd_read_csv
print(movie)

#movie.head()

movie.director_name # 对象.列名 注意名字需要手写不会自动补偿

movie[‘director_name’]

actor___facebook_likes = movie.actor_1_facebook_likes

actor___facebook_likes.head() # 获取点赞数的前五条 api的灵活运用

movie[‘director_name’].value_counts() #不同导演的电影

movie[‘director_name’].count() #统计有多少导演

movie[‘director_name’].shape # 统计维度
movie[‘director_name’].describe() # 统计导演详细信息

df = pd.read_csv(‘/root/export/data/scientists.csv’)
print(df)
df_values=[False, True, True, False, False, False, True, False] # true 表示当前列显示 false代表当前列不显示
ages = df[‘Age’]
print(type(ages))
print(ages.mean())
df[df[‘Age’]>df.Age.mean()]
df.hist()

#%%
import pandas as pd
ages=df.Age
print(ages)
counts = df.value_counts()
print(counts)
#%%
print(ages+10)
#%%
print(ages*2)
#%%
ages_sort_index = ages.sort_index(ascending=False)
print(ages_sort_index)

#%%
print(ages_sort_index+ages)
#%%
print(ages+pd.Series([1,2,3]))
#%%
#print(movie.describe(exclude=‘int,double’)) # 显示最大值 最小值 分值 统计数量
print(movie.describe(include=‘all’))
#%%
print(movie.info) # 显示基本西信息 行列数

df.info

df.e
#%%
movie2=movie.set_index(‘movie_title’)
print(movie2)
movie2.head()
#%%

#%% md

#%%

#%%

#%%
df=pd.read_csv(‘/root/export/data/scientists.csv’)

print(df)

print(df.index)

print(df.values)

#print(df.describe(exclude=[‘int’,float]))
print(df.describe(include=‘all’))

#%%
movie6=pd.read_csv(‘/root/export/data/movie.csv’)
#movie6.set_index(‘movie_title’) #将指定列设置为索引
movie6.reset_index() # 重置索引

#%%
movie7=pd.read_csv(‘/root/export/data/movie.csv’,index_col=‘movie_title’)
print(movie7)
movie6.index[:5]
print(movie6.columns[:5])
#%%
idx_rename={‘Avatar’: ‘阿凡达’, “Pirates of the Caribbean: At World’s End”: ‘加勒比海盗’}
col_rename = {‘color’: ‘颜色’, ‘director_name’: ‘导演名’}
movie7.rename(index=idx_rename,columns=col_rename)

#%%
movie7=pd.read_csv(‘/root/export/data/movie.csv’,index_col=‘movie_title’)

todo 修改列值 前提是先把数据转成list以方便提取索引 方便后续操作

movie__index_to_list = movie7.index.to_list()
print(movie__index_to_list)

columns_to_list = movie7.columns.to_list

print(columns_to_list)

movie__index_to_list[0]=‘阿凡达’
movie__index_to_list[1]=‘加勒比海盗’
#columns_to_list[0]=‘颜色’
#columns_to_list[0]=‘颜色’

print(movie7) # todo

movie7.head()

movie7.index=movie__index_to_list

movie7.columns=columns_to_list

movie7.head()

#%%
movie = pd.read_csv(‘/root/export/data/movie.csv’,index_col=‘movie_title’)

提取出 行索引名 和 列名, 并转成列表.

index_list = movie.index.tolist()
columns_list = movie.columns.tolist()

修改列表元素值

index_list[0] = ‘阿凡达’
index_list[1] = ‘加勒比海盗’

columns_list[0] = ‘颜色’
columns_list[1] = ‘导演名’

重新把修改后的值, 设置成 行索引 和 列名

movie.index = index_list
movie.columns = columns_list

查看数据

movie.head(5)
#%%
movie = pd.read_csv(‘/root/export/data/movie.csv’,index_col=‘movie_title’)

新增一列 方式一 df[列名]=值

movie[‘has_seen’]=0
print(movie.head())

movie[‘actor_director_facebook_likes’] = (
movie[‘actor_1_facebook_likes’] +
movie[‘actor_2_facebook_likes’] +
movie[‘actor_3_facebook_likes’] +
movie[‘director_facebook_likes’]
)
movie.head()

#%%
#movie.drop(‘has_seen’,axis=‘columns’) # 1 列删除
#movie[‘has_seen’]=0
#movie.drop(‘has_seen’,axis=1) # 默认在最后一行加

print(movie.head())

movie.index

movie.head().drop([0, 1])

#%%
movie.insert(loc=1,column=‘uuu’,value=movie[‘gross’]-movie[‘budget’]) # todo 插入列 不写inplace 默认原始df对象上插入
movie.head()



在这里插入代码片




前言

提示:这里可以添加本文要记录的大概内容:

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


提示:以下是本篇文章正文内容,下面案例可供参考

一、pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

  • 15
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python作为一种流行的编程语言,在数据处理过程也非常常用。但是,在处理文属性时,Python的一些常规方法可能无法直接使用。因此,针对文属性处理,我们需要了解一些特殊的Python库和方法。 在Python,首先需要使用pandas库来读取文属性的数据集。pandas是一个强大的数据分析工具,支持各种数据格式的导入和导出。然后,我们需要使用Python的新次元学习(gensim)库来处理文文本。Gensim是用于主题建模和文档相似性建模的Python库。它可以处理语言,包括对文本进行分词、去除停用词以及进行词向量化等操作。 另外一个可以用于文文本处理Python库是jieba分词库。jieba是一个开源的分词库,它可以将文文本分成一个个独立的词语。jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,用户可以根据自己的需求进行调整。 最后,还可以使用Python的自然语言处理工具包NLTK来处理文文本。NLTK是一款适用于人类语言处理Python库,它可以进行分类、标记、分析和翻译等操作。NLTK可以支持文文本,我们可以使用NLTK的分词器来将文文本划分为单词。 综上所述,文属性的数据集处理Python可能需要使用额外的库和方法。在处理文数据时,我们可以使用pandas库来读取数据,并结合gensim、jieba和NLTK等工具进行处理

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai玩家hly

年少且带锋芒,擅行侠仗义之事

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值