学习笔记——仅仅为了留下Pima印第安人糖尿病发病数据集的网址

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/qq_42370150/article/details/96189615
            </div>
                                                <!--一个博主专栏付费入口-->
         
         <!--一个博主专栏付费入口结束-->
        <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-4a3473df85.css">
                                    <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-4a3473df85.css">
            <div class="htmledit_views" id="content_views">
                                        <h3><a name="t0"></a>查看对应的版本</h3>

 
 
  1. # 下载和安装Python和SciPy
  2. # Python version
  3. import sys
  4. print('Python: {}'.format(sys.version))
  5. # scipy
  6. import scipy
  7. print('scipy: {}'.format(scipy.__version__))
  8. # numpy
  9. import numpy
  10. print('numpy: {}'.format(numpy.__version__))
  11. # matplotlib
  12. import matplotlib
  13. print('matplotlib: {}'.format(matplotlib.__version__))
  14. # pandas
  15. import pandas
  16. print('pandas: {}'.format(pandas.__version__))
  17. # scikit-learn
  18. import sklearn
  19. print('sklearn: {}'.format(sklearn.__version__))

新建一个简单的Dataframe(数据帧)


 
 
  1. import numpy
  2. import pandas
  3. import matplotlib.pyplot as plt
  4. # 散点矩形
  5. from pandas.plotting import scatter_matrix
  6. # 特征缩放
  7. from sklearn.preprocessing import StandardScaler
  8. # 交叉验证法
  9. from sklearn.model_selection import KFold
  10. # 逻辑回归
  11. from sklearn.linear_model import LogisticRegression
  12. myarray = numpy.array([[1, 2, 3], [4, 5, 6]])
  13. rownames = ['a', 'b']
  14. colnames = ['one', 'two', 'three']
  15. mydataframe = pandas.DataFrame(myarray, index=rownames, columns=colnames)
  16. print(mydataframe)

 
 
  1.   one two three
  2. a   1   2     3
  3. b   4   5     6

从csv加载数据 输出的为行列


 
 
  1. import pandas
  2. url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
  3. names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
  4. data = pandas.read_csv(url, names=names)
  5. # 行列
  6. print(data.shape)

csv数据转换 用描述性统计理解数据


 
 
  1. data = pandas.read_csv(url, names=names)
  2. description = data.describe()
  3. print(description)

绘图 用可视化理解数据


 
 
  1. data = pandas.read_csv(url, names=names)
  2. scatter_matrix(data)
  3. plt.show()

为预处理数据建模做准备


 
 
  1. dataframe = pandas.read_csv(url, names=names)
  2. array = dataframe.values
  3. # 数组分成输入和输出组件
  4. X = array[:,0:8]
  5. Y = array[:,8]
  6. scaler = StandardScaler().fit(X)
  7. # 通过定心和定标来实现标准化
  8. rescaledX = scaler.transform(X)
  9. # 汇总转换后的数据
  10. # 设置打印选项
  11. numpy.set_printoptions(precision=3)
  12. print(rescaledX[0:5,:])
\
 
 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值