![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 61
闲庭信步的空间
数据分析、编程学习笔记
展开
-
python爬虫: 爬取拉勾网职位并分析
0. 前言1. 用到的软件包2. 解析网页3. 数据清洗4. 词云5. 描述统计6. 实证统计7. 完整代码0. 前言本文从拉勾网爬取深圳市数据分析的职位信息,并以CSV格式保存至电脑, 之后进行数据清洗, 生成词云,进行描述统计和回归分析,最终得出结论.1. 用到的软件包Python版本: Python3.6 requests: 下载网...原创 2018-05-04 16:32:52 · 12404 阅读 · 17 评论 -
python爬虫入门:豆瓣电影Top250抓取
【前言】本文从豆瓣网爬取前250部电影,并以CSV格式下载至电脑。本人才疏学浅,如有不足之处,还请各位大神指正。【用到的软件包和知识点】requests:下载网页BeautifulSoup4:解析网页,提取所需数据 re:匹配正则表达式pandas:将数据转化为data frame, 再输出为csv格式【思路】采用divide-and-conquer方法,先对一个网页进行分析和抓取,再用循环,应用...原创 2018-04-27 20:18:48 · 1253 阅读 · 0 评论 -
Kaggle: 房价预测
0.前言1.导入数据2.查看房价分布3.填充缺失数据4.建模5.提交结果0.前言本文对Kaggle房价的训练集和测试集进行分析,采用正则线性回归,对房价进行了预测.本人将思路记录下来,以供参考.如有不足之处,欢迎指正.1.导入数据import numpy as npimport pandas as pdimport matplotlib.pyplot...原创 2018-05-18 10:58:34 · 3728 阅读 · 0 评论 -
Kaggle: 泰坦尼克号生存预测
0.前言1.导入数据2.特征分析2.1 数值数据2.2 分类数据3.填充缺失数据3.1 填充Fare, Embarked3.2 填充Age4.特征工程4.1 从Name中提取头衔4.2 从Parch和SibSp中提取家庭人数4.3 从Cabin提取首字母5.建模5.1 交叉验证5.2 调参5.3 模型融合5.4 生成预测结果0.前...原创 2018-05-11 17:52:43 · 786 阅读 · 0 评论 -
使用KNN预测电影评分-python3
在散点图上找出k个最近邻居,让他们投票确定分类,类别判定为离它最近的k个观察值中所占比例最大的分类。Python数据科学与机器学习:从入门到实践。[美]弗兰克•凯恩(Frank Kane)原创 2023-04-20 21:29:08 · 448 阅读 · 0 评论 -
无监督学习-K均值聚类
k均值聚类是机器学习中一种非常常用的技术,简单来说,k均值聚类就是将数据分成k个组,根据数据点距离哪个组的中心点最近而决定。原创 2023-04-23 09:17:15 · 648 阅读 · 0 评论 -
决策树-随机森林
在决策树流程图的每个步骤中,都要找到这样一个属性,它对数据的划分使得下一步中的熵是最小的。我们会得到两个分类,在例子中是录用和不录用,我们要在这个步骤中确定一个属性,使得下一步的熵最小。它是一种贪婪算法,在生成树的每个步骤中都要给选择使熵最小的属性。原创 2023-04-23 11:32:24 · 1018 阅读 · 2 评论 -
监督学习-多项式回归-python3
多元回归使用R²衡量整体的拟合度。R²的值越接近1,说明回归直线对观测值的拟合程度越好。拟合度r2计算公式:R2=ESS/TSS=1-RSS/TSS。原创 2023-04-21 13:23:31 · 415 阅读 · 0 评论 -
朴素贝叶斯实现垃圾邮件分类器
贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)。使用朴素贝叶斯对垃圾邮件进行分类, 假定各个单词之间没有联系。只是独立地检查邮件中的每个单词,然后将每个单词对确定是否为垃圾邮件的贡献组合起来。原创 2023-04-21 16:50:33 · 310 阅读 · 0 评论 -
数据挖掘入门: Kaggle手写数字识别
0.前言1.导入数据2.特征预处理3.主成分分析4.建模5.提交结果0.前言本文对Kaggle上MNIST手写数字集进行分析,采用主成分分析和支持向量机进行预测,将预测结果生成CSV文件.本人将思路记录下来,以供参考.如有不足之处,欢迎指正.1.导入数据import numpy as npimport pandas as pdfrom time ...原创 2018-06-09 11:49:11 · 5701 阅读 · 5 评论