Eclipse_XBY-CSDN博客

原创 python批量合并excel文件，从每个文件中抽取同样的列合并

因为这学期课程想要分析股票数据，但下载的成分股被分为多个excel文件，为方便起见，写了这个合并excel的程序。它里面的内容如下：采用***\t***分割。

2023-02-27 17:35:33 658 1

原创实习生实习（校招）岗位信息爬取（2022.11.28可用）

实习僧实习岗位或校招岗位爬取

2022-11-28 16:38:43 269

原创关于numpy中数组array和矩阵mat的一些运算区别

关于numpy中数组array和矩阵mat的一些运算区别

2022-10-13 21:15:56 304

原创 hive 连接 MySQL遇到问题

其中第1、4、5个红框是虚拟机名称注意改成自己的，第二个是你的用户名一般都是root，第三个是你的MySQL设置的密码，一般这几个搞对了基本就没什么问题了。

2022-09-17 19:14:11 1303 1

原创 python数据分析（2） DataFrame中iloc与loc的作用与区别，取自kaggle竞赛

iloc在概念上比loc简单，因为它忽略数据集的索引。当我们使用iloc时，我们将数据集视为一个大矩阵(列表的列表)，我们必须按位置对其进行索引。相反，Loc使用索引中的信息来完成它的工作。因为数据集通常有有意义的索引，所以使用loc通常更容易。# 用iloc观察某一行X.iloc[0]# 用iloc观察某一列，与matlab操作相似X.iloc[:, 0]# iloc切片操作# 第一列前三行X.iloc[:3, 0]# 第一列012这三行X.iloc[[0, 1, 2], 0]

2022-05-09 15:51:10 2556

原创手动创建DataFrame，Series，取自kaggle

import pandas as pd# 默认索引，从0开始fruits = pd.DataFrame([[30, 21]], columns=['Apples', 'Bananas'])# 自定义索引fruit_sales = pd.DataFrame([[35, 21], [41, 34]], columns=['Apples', 'Bananas'], index=['2017 Sales', '2018 Sales'])animals = pd.Da.

2022-05-09 14:57:39 494

原创 python机器学习入门（2）模型优化（以决策树为例），来自kaggle竞赛

from sklearn.metrics import mean_absolute_errorfrom sklearn.tree import DecisionTreeRegressor# 此函数用于返回模型拟合效果，用绝对平均误差评估''' max_leaf_nodes 决策树分叶数 train_X 训练集自变量 val_X 测试集自变量 train_y 训练集因变量 val_y 测试集因变量.

2022-05-04 16:27:08 1285 1

原创 python机器学习库sklearn入门（1）工具使用（数据分割、模型评估），来自kaggle竞赛

from sklearn.metrics import mean_absolute_error # 绝对平均误差评估模块from sklearn.model_selection import train_test_split # 训练集测试集分割模块# split data into training and validation data, for both features and target# The split is based on a random number generato...

2022-05-04 15:54:49 1121

原创 python数据分析（1） DataFrame常用命令，取自kaggle竞赛

import pandas as pd # 读取文件melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'melbourne_data = pd.read_csv(melbourne_file_path) # 显示列名（用于查看数据结构）melbourne_data.columns # 删除具有空值的行，一行有一个空值则全部删除melbourne_data = melbourne_data.dro.

2022-05-04 15:13:28 1050