Wan7777777-CSDN博客

原创 Python：列表追加元素or列表

往列表末尾添加一个元素或列表（append&extend）往列表末尾添加一个新列表 append会将整个新列表加进去extend 会将新列表的元素依次加在末尾

2022-07-08 02:29:11 780 1

有监督学习（Supervised Learning）1. 一句话定义“已知x和y，求函数f（x），使得给定x算出的f（x）尽可能接近y”的过程。2. 为什么叫“有监督”过程中，我们会通过不断调整参数，使得预测值f（x）和实际值y的误差尽可能小。而y充当了一个“监督者”的角色，引领我们的函数不断朝y优化。因此，这种学习方法叫做有监督学习。3. 有监督学习根据预测值y的类型，可以分成两类（1）分类：当y是离散值时（例如，根据图片预测花的种类）（2）回归：当y是连续值时（例如，预测明日房价

2022-04-21 20:06:51 1244

原创西瓜书：第一章（绪论）&第二章（模型评估与选择）

【基本术语】模型/学习器：泛指从数据中学得的结果；其实就是通过观察获得的“经验”，当遇到新事物，有一定的判断依据。示例/样本：一个事物或对象的描述，例如“一个西瓜”，也就是一条数据属性/特征：反映事物或对象在某方面的表现或性质的事项，例如一个西瓜的“色泽”、“敲声” 属性值：属性上的取值，例如“青绿”、“乌黑” 属性空间/样本空间/输入空间：我们把属性作为坐标轴，可以构建一个多维空间，每个西瓜都可以找到自己的坐标位置；同时，每一个西瓜对应一个坐标向量，因此

2021-10-13 02:22:58 243

原创简历撰写：6大板块&n个细节

对于毕业生和已经有丰富工作经验的求职者来说，需要展现的简历模块是完全不同的，这里水平和阅历有限，只论【毕业生】。个人想强调的一点是，简历是一个人的“脸面”，它可以是浓妆淡抹、粉妆玉琢的、也可以是英朗俊美、魁梧轩昂的，它是HR了解求职者的重要的窗户，但，它本身又只是一扇窗户，不可能替代窗外的迤逦风光本身。风物长宜放眼量，我们求职前固然一定需要把简历做好，但生活中更重要的是我们要把自己的能力、阅历、见识、成果不断锤炼，才是正道。否则，金玉其外败絮其中，再华美的纸张也不过尽是“荒唐”言。希望对看到的朋

2021-10-03 11:50:26 778 1

原创 Pandas技巧大全：含具体代码实现

这学期刻意少选了一些课，希望能够多一些输入，让自己的内在能力提升起来，做一个实干家而不是口嗨家。于是干脆结合平时数据处理过程中遇到的问题，进行系统的总结，形成一篇篇文档，既是对自己的记录，也可能对看到的朋友有帮助。由于水平有限目前需要依靠大量的参考资料来支撑，也尽数列在【参考文献】中，希望对看到的朋友有所帮助。非常感谢松鼠在过程中给出的建议和支持，没有松鼠的鼓励可能我完全坚持不到不断完善和更新，有人支持的感觉真好~

2021-09-29 19:03:56 2450 1

原创 Python超实用小技巧：数据分箱（代码及原理详解）

train['CategoricalFare'] = pd.qcut(train['Fare'], 4)# 数据分箱，分成4个箱子目的连续变量离散化：1~100分成4箱为什么要分箱？离散变量便于特征的增加和减少，便于模型快速迭代稀疏向量内积乘法更快，计算结果便于存储，容易扩展离散化后的特征对异常数据有很强的鲁棒性，例如，连续异常值5000可能对模型影响很大，但如果分箱后，模型影响很小为模型引入非线性，提升模型表达能力，加大拟合...

2021-08-17 02:46:51 3389

原创 Python超实用小技巧：统计每列缺失值的占比

代码 def missing_percent(df): nan_percent = 100*(df.isnull().sum()/len(df)) # df.isnull().sum()统计每一列的缺失值数量 # 再除上len()得到每一列的缺失值比例——小数形式 # *100得到百分数 nan_percent = nan_percent[nan_percent > 0].sort_values() # 得到每列的缺失值的占比，升...

2021-08-17 02:45:09 6033 2

原创 Python超实用小技巧：合并数据框

把列转化为哑变量之后，拼接到数据框中 pd.concat([x, y], axis=1) x和y代表要合并的数据框 axis代表拼接方式，1代表按列拼起来 train = pd.concat([train, train_sex],axis=1)# 把两个数据框合并起来，合并方式为按列合并同样的操作不仅要预处理训练集，还要处理测试集！！！...

2021-08-17 02:43:15 3342 1

原创 Python超实用小技巧：分类变量转化为哑变量（附哑变量详解）

代码示例features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量用来建模X = pd.get_dummies(train[features])# 把分类变量转化为哑变量哑变量详解定义：哑变量（DummyVariable），也叫虚拟变量目的：主要用于处理多分类变量，把不能量化的多分类变量量化，每个哑变量对模型的影响都细化，提高模型精准率具体操作假如“职业因素”列，共有5个分类变量：学生、农...

2021-08-17 02:41:24 7101

原创 Python超实用小技巧：筛选特定的行

women = train.loc[train.Sex == 'female']['Survived']# 选取性别为female的所有行，再筛选其中的一列“Survived”# print(women)

2021-08-17 02:36:10 2036

原创 Python超实用小技巧：删除特定的行和列

删除不需要的列train.drop(["Cabin", "Ticket", "PassengerId", "Name"], axis = 1, inplace=True)# axis = 1 表示按列删除# inplace=True是指原地操作的意思，不创建新的，直接在原数据中改变删除不需要的行index = train[train["Fare"] > 450 ].index# 获取Fare列的值大于450的行# .index获取行的行号# print(inde...

2021-08-17 02:34:25 10136

原创 Python超实用小技巧：添加新列——两列之间运算得到第三列

目的：表亲+近亲+自己，统计孤身一人和非孤身一人的信息 for dataset in full_data: dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1 # 家庭规模：表亲+近亲+自己

2021-08-17 02:32:24 1414

原创 Python超实用小技巧：统计某列的重复值

应用场景：有时候我们需要统计这一列有多少重复的值代码 print(train["Name"].duplicated().sum())

2021-08-17 02:30:06 1744

原创 Python超实用小技巧：统计某列的所有值的出现次数

应用场景：我们想要获取某列数据都有哪些取值？每种取值的数量是怎样的？例如，我们想要获取【房间号】这一列的数据，一共有几个房间号？每个房间号出现了几次？代码 print(train["Cabin"].value_counts())#.value_counts() 结果范例 C23 C25 C27 4G6 4B96 B98 4C22 C26 3F2 3 ...

2021-08-17 02:27:39 3747

原创 Python超实用小技巧：遍历目录和文件

通过Python来访问电脑的文件，非常好用

2021-08-17 02:19:54 221

原创牛客刷题：SQL8 找出所有员工当前薪水salary情况（8.5）

昨夜由于朋友电脑突发故障，于是借去我的电脑帮忙处理bug。深夜相谈甚欢，虽然提交任务拖了一些，但也有所感悟和收获，让留校生活不至于太过无聊和冷漠~目录一、题目描述二、思路：group by / distinct + order by知识点——distinct还是group by？我有一个疑问，既然distinct和group by都可以实现去重的功能，那在实际应用场景中我们应该如何选择呢？当数据量比较大且对系统的性能要求比较高的时候，用group by 当数据量比较小

2021-08-06 16:36:17 134

原创 Kaggle竞赛：Titianic——XGBoost（8.5）

目录参考资料知识点——%matplotlib inline1、导入包2、读数据+初步查看3、数据预处理知识点——数据分箱4、画图——相关系数5、XGBoost建模6、预测7、导出XGBoost代码全文参考资料原文【很多地方没看懂】 graph_objs介绍 init_notebook_mode说明 warnings.filterwarnings("ignore")详情 Plotly绘图基本介绍 skle

2021-08-06 03:39:27 242

原创 Kaggle竞赛：Titianic——随机森林(8.4)

目录参考资料知识点——遍历目录和文件1. 导入包2. 读入数据3. 查看前5行数据4. EDA：筛选特定值和某个列5. 分类变量转化为哑变量6. 随机森林7. 预测8. 导出随机森林全文代码参考资料原文 os.walk的用法 random_state的用法知识点——遍历目录和文件获取当前文件夹下面的所有文件（不含文件夹）import os# os.walk("name")中的"name"为当前工作目录下的文件夹的

2021-08-04 20:51:20 264

原创牛客刷题：SQL 4 & SQL5 & SQL7（8.4）

放在前面的话这次SQL4和SQL5很简单，用内连接和左连接就好，没有新的知识点于是刷了SQL7（SQL6没有），遇到新知识点，分组之后的数据筛选，不能用where，而要用having目录SQL4 查找所有已经分配部门的员工的last_name和first_name以及dept_no（8.4）一、题目描述二、思路1：内连接SQL5 查找所有员工的last_name和first_name以及对应部门编号dept_no（8.4）一、题目描述二、思路1：左连接SQL7 查找薪水

2021-08-04 11:06:46 166

原创 Kaggle竞赛实战：Titianic——KNN（7.29~8.3）

目录参考资料1. 导入包2. 导入数据3. 查看前5行数据4. 分类变量转化为哑变量（性别）知识点——哑变量5. 合并数据框6. 删掉不必要的列7. 统计每一行的缺失值8. 可视化缺失值9. 查看各列之间的相关性并可视化10. 丢掉相关性很弱的列11. 缺失值的填充12. 删除和筛选最终建模的列13. KNN建模知识点——KNN14. 预测参考资料 kaggle原文哑变量哑变量详解回归模型

2021-08-03 12:05:46 861

原创牛客刷题：SQL3 查找当前薪水详情以及部门编号dept_no（8.3）& 数学建模感想

断更几天的感想 7.29~8.2 这四天在准备数学建模竞赛，熬夜肝论文，于是只能暂时停止，这里给自己的懒惰说一声抱歉发现自己在统计、机器学习、可视化方面的代码总结做的很差，很多之前写过的代码完全找不到，只能重复再去搜，特别是在这种紧急状态下（要求几个小时之内一定要做出来），这种代码复用格外的重要今天又是头疼没有队友一起刷kaggle的一天，有想要一起刷kaggle的朋友欢迎私戳！一、题目描述有一个全部员工的薪水表salaries简况如下:..

2021-08-03 10:46:21 102

原创牛客刷题：SQL2 查找入职员工时间排名倒数第三的员工所有信息（7.30）

目录一、题目描述二、思路参考文献一、题目描述有一个员工employees表简况如下:请你查找employees里入职员工时间排名倒数第三的员工所有信息，以上例子输出如下:二、思路思路1：倒序原理同SQL1中所用到的order by+limit将数据元素按照入职时间倒序排序，选择第3行数据即可SELECT*FROM employeesORDER BY hire_date DESCLIMIT 2,1-- 等价于 limit ...

2021-07-30 20:04:17 223

原创牛客刷题：SQL1 查找最晚入职员工的所有信息（7.29）

目录一、题目描述二、思路一、题目描述有一个员工employees表简况如下:请你查找employees里最晚入职员工的所有信息，以上例子输出如下:二、思路目前的任务是查找最晚入职的员工的信息，最简单的思路，是找入职时间最晚的信息。思路1：倒序最简单的思路是，直接把数据按入职的时间倒序排列，返回第一条信息。这个要求并不高，主要利用order by和limit参数select *from employeesorder by hir

2021-07-30 03:39:59 216

原创爬虫小白系列01期：从李白&杜甫，来看爬虫本质、浏览器访问网页原理、请求头的概念

众所周知，爬虫的本质是，模拟浏览器打开网页，获取网页中我们需要的那部分数据。那首先我们应该清楚，普通一般浏览器打开网页的流程和原理是怎样的？根据生活经验，我们使用浏览器打开网页的步骤一般是这样的输入想要访问的网址的链接回车之后，略微等待得到想要访问的页面简单的三步背后，底层逻辑是怎样的呢？图源：https://www.cnblogs.com/malong1992/p/11404396.html；侵删以百度网页为例，http://www.baidu.com我们在浏览器中.

2021-07-28 03:42:55 244

Wan7777777的博客