python大数据分析

1.

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression as LR
data=pd.read_excel('1.xlsx')
x=data.iloc[:,1:6].values
y=data.iloc[:,6].values
lr=LR()
lr.fit(x,y)
Slr=lr.score(x,y)
c_x=lr.coef_
c_b=lr.intercept_
x1=np.array([4,1.5,10,17,9])
x1=x1.reshape(1,5)
Y=lr.predict(x1)
r1=x1*c_x
Y=r1.sum()+c_x
print('x回归系数为:',c_x)
print('回归系数常数项:',c_b)
print('判定系数:',Slr)
print('样本预测值:',Y)

2.

# -*- coding: utf-8 -*-
import pandas as pd

data = pd.read_excel('2.xlsx')
x_train=data.iloc[:20,1:4]
y_train=data.iloc[:20,4]
x_test=data.iloc[20:,1:4]

from sklearn.linear_model import LogisticRegression as LR
clf = LR()
clf.fit(x_train, y_train)
rv=clf.score(x_train, y_train)
R=clf.predict(x_test)
print('逻辑回归模型拟合准确率: ',rv)
print('逻辑回归模型评估结果: ',R)

from sklearn import svm
clf = svm.SVC(kernel='rbf') 
clf.fit(x_train, y_train)
rv=clf.score(x_train, y_train)
R=clf.predict(x_test)
print('支持向量机模型拟合准确率: ',rv)
print('支持向量机评估结果: ',R)

from sklearn.neural_network import MLPClassifier
clf = MLPClassifier(solver='lbfgs', alpha=1e-5,hidden_layer_sizes=(5,2), random_state=1)
clf.fit(x_train, y_train)
rv=clf.score(x_train, y_train)
R=clf.predict(x_test)
print('神经网络模型拟合准确率: ',rv)
print('神经网络评估结果: ',R)

3.

# -*- coding: utf-8 -*-
import pandas as pd
from sklearn.preprocessing import StandardScaler     
from sklearn.cluster import KMeans 
from sklearn.decomposition import PCA 

# 1.数据获取
data = pd.read_excel('3.xlsx')
X=data.iloc[:,1:]

#主成分分析
pca=PCA(n_components=0.90)
pca.fit(X)
f=pca.transform(X)  #主成分
tzxl=pca.components_       #特征向量
tz=pca.explained_variance_     #特征值
gxl=pca.explained_variance_ratio_   #贡献率
f=pd.DataFrame(f)

# 标准化
scaler = StandardScaler()
scaler.fit(f) 
XZ=scaler.transform(f)  


model = KMeans(n_clusters = 4, random_state=0, max_iter = 500) #分为k类,并发数4
model.fit(XZ) #开始聚类
c=model.labels_

Fs=pd.Series(c,index=data['地区'])
Fs=Fs.sort_values(ascending=True)
print(Fs)

4.

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
from sklearn.neural_network import MLPRegressor as MP

# 1.数据获取
data = pd.read_excel('4.xlsx')

x_train=data.iloc[:,1:4].values
y_train=data.iloc[:,4:6].values

clf = MP(solver='lbfgs', alpha=1e-5,hidden_layer_sizes=8, random_state=1) 
clf.fit(x_train, y_train); 
 
a=np.array([[73.39,3.9635,0.9880],[75.55,4.0975,1.0268]]) #预测2010和2011年
y1=clf.predict(a)  
y1=pd.DataFrame(y1)

s=[2010,2011]
s=pd.DataFrame(s)

yy=pd.concat([s,y1],axis=1)
yy.columns=['时间','公路客流量','公路货运量']
print(yy)

5.

import pandas as pd
import numpy as np
#第一题
data=pd.read_excel('5.xlsx')
tiem = ['西红柿', '茄子', '水果刀', '香蕉', '袜子', '毛巾', '肥皂', '排骨', '酸奶', '鸡蛋', '鞋子', '土豆']
D = dict()
for t in range(len(tiem)):
    z = np.zeros((len(data)))
    li = list()
    for k in range(len(data.iloc[0, :])):
        s = data.iloc[:, k] == tiem[t]
        li.extend(list(s[s.values == True].index))
    z[li] = 1
    D.setdefault(tiem[t], z)
Data = pd.DataFrame(D)
print(Data)
#第二题
c = list(Data.columns)
c0 = 0.4
s0 = 0.2
list1 = []
list2 = []
list3 = []
for k in range(len(c)):
    for q in range(len(c)):
        if c[k] != c[q]:
            c1 = Data[c[k]]
            c2 = Data[c[q]]
            I1 = c1.values == 1
            I2 = c2.values == 1
            t12 = np.zeros((len(c1)))
            t1 = np.zeros((len(c1)))
            t12[I1 & I2] = 1
            t1[I1] = 1
            sp = sum(t12) / len(c1)
            co = sum(t12) / sum(t1)
            if co >= c0 and sp >= s0:
                list1.append(c[k] + '--' + c[q])
                list2.append(sp)
                list3.append(co)
R = {'rule': list1, 'support': list2, 'confidence': list3}
R = pd.DataFrame(R)
R.to_excel('导出数据.xlsx')

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种功能强大的编程语言,也是数据科学和大数据分析领域中最受欢迎的语言之一。Python具有易于学习、易于使用、灵活和高效的特点,因此在大数据分析中得到了广泛的应用。Python大数据分析的主要步骤包括: 1.读数据:Python提供了许多用于读各种文件格式的库,例如pandas库可以读取和入CSV、Excel、SQL等文件格式。 2.数据处理和计算:Python中的NumPy和SciPy库提供了许多用于数值计算和科学计算的函数和工具。Pandas库提供了用于数据清洗、转换和重塑的函数和工具。 3.数据分析和建模:Python中的Scikit-learn库提供了许多用于机器学习和数据挖掘的算法和工具。Statsmodels库提供了用于统计建模和计量经济学的函数和工具。 4.数据可视化:Python中的Matplotlib和Seaborn库提供了许多用于数据可视化的函数和工具,可以创建各种类型的图表和可视化效果。 以下是一个使用Python进行数据分析的简单示例: ```python import pandas as pd import matplotlib.pyplot as plt # 读取数据 data = pd.read_csv('data.csv') # 数据处理和计算 data = data.dropna() # 删除缺失值 data['total'] = data['price'] * data['quantity'] # 计算总价 # 数据分析和可视化 grouped_data = data.groupby('category')['total'].sum() # 按类别计算总销售额 grouped_data.plot(kind='bar') # 创建条形图 plt.title('Total Sales by Category') # 添加标题 plt.xlabel('Category') # 添加x轴标签 plt.ylabel('Total Sales') # 添加y轴标签 plt.show() # 显示图表 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值