自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 神经网络算法介绍

人工神经网络(Artificial Neural Networks,ANN)最早起源于1943年,受“脑神经元学说”的启发,心理学家W·Mcculloch和数理逻辑学家W·Pitts首次提出基于神经元的数学模型,后来经过无数人的改进和完善,一直发展至今,而这发展中间经历了多次低谷,主要原因是当时的计算机算力不足。在2000年左右,随着计算机技术的成熟,神经网络迎来了迅猛发展,现如今,深度学习(深度神经网络)已经应用于自动驾驶、人脸识别、语音助理、数据挖掘等多个领域,是支撑现代社会的一项核心技术。

2022-01-31 19:09:14 7268

原创 一文搞懂线性回归和逻辑回归

1.线性回归(Linear Regression)1).介绍线性回归是机器学习中最基础、最经典的算法之一,它利用线性函数对一个或多个自变量和因变量之间关系进行建模,建模过程就是使用数据点来寻找最佳拟合线。线性回归分为两种类型:单变量线性回归(Linear Regression with One Variable),一个自变量和一个结果变量,能在二维平面可视化;和 多变量线性回归(Linear Regression with Multiple Variables),至少两组自变量。有一点需要注意,“线

2021-11-08 22:29:02 5277

原创 pandas dataframe和spark dataframe处理大数据的一点建议

遇到问题我有一个15GB的Hive表,我想用pandas处理,于是我在pyspark中用spark.sql()读入为spark dataframe,然后使用pandas_df = spark_df.toPandas()命令将spark dataframe转换为pandas dataframe,但这个时候报错:org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow. Available: 0, require.

2021-11-02 18:27:35 1679

原创 Python项目:爬取IT互联网高薪热门职位数据并进行可视化分析

作者CSDN:进击的西西弗斯本文链接:https://blog.csdn.net/qq_42216093/article/details/115587741版权声明:本文为作者原创文章,未经作者同意禁止转载1.项目说明以及流程概要爬取网站:智联招聘(https://sou.zhaopin.com/)开发环境:Python3.8(Pycharm编辑器),全流程通过代码实现爬取时间:2021/10/24 晚上9:13 的实时招聘信息数据爬取职位及城市:共9个职位,.

2021-10-24 23:33:20 11778 7

原创 集成学习算法精讲:Boosting方法与AdaBoost、GBDT

作者CSDN:进击的西西弗斯版权声明:本文为作者原创文章,转载请注明出处在机器学习领域,深度学习(Deep Learning\text {Deep Learning}Deep Learning)一直被神经网络统治着,而浅层学习(Shallow Learning\text {Shallow Learning}Shallow Learning)任然属于树模型的领地。一方面,尽管深度学习在大规模学习上表现强大,但它在小规模学习上的表现却差强人意;另一方面,集成树.

2021-10-20 14:29:17 487

原创 一文搞懂决策树:ID3、C4.5、CART算法精讲

作者CSDN:进击的西西弗斯版权声明:本文为作者原创文章,转载请注明出处在机器学习领域,深度学习(Deep Learning\text {Deep Learning}Deep Learning)一直被神经网络统治着,而浅层学习(Shallow Learning\text {Shallow Learning}Shallow Learning)任然属于树模型的领地。一方面,尽管深度学习在大规模学习上表现强大,但它在小规模学习上的表现却差强人意;另一方面,集成树.

2021-10-20 14:25:22 619

原创 集成学习算法精讲:Bagging方法与随机森林

集成学习传统机器学习的目标都是训练得到一个预测准确率尽可能高的“强学习器”(决策树、神经网络等),而实际情况中要找到一个最优的“强学习器”很难,为解决这一问题,“集成学习”被提出。“集成学习”认为,对多个预测准确率较低的“弱学习器”(只要求预测准确率略高于随机猜测),如果以某种恰当的方式将这多个“弱学习器”组合,那么就能提升为“强学习器”,获得更高的预测准确率。基于这种思想,1990年, Schapire最先构造出一种多项式级的算法,对该问题做了肯定的证明,这就是最初的 Boosting算法,后来发.

2021-10-20 10:52:08 554

原创 Mac下python安装xgboost不踩坑方案

遇到的困难Python的xgboost库由于其自身的特殊性(底层基于C++),导致安装过程困难重重,Win系统相对容易,但是Mac比较麻烦我试了用pip命令安装:pip install xgboost,安装失败,报错,根据报错原因去网上搜索解决方法,然后解决的过程又遇到新的问题,又解决新问题的时候又报错……(比如要安装gcc,libomp,cmake,还要配置环境变量,很繁琐而且地狱难度)又尝试了conda安装,还是和pip差不多,各种问题,解决问题的同时又带来新问题又尝试了直接git clone.

2021-09-26 23:06:50 714

原创 Mac终端shell查看及修改默认python版本

首先,查看当前默认Python及环境,了解情况在shell中输入以下命令来查看当前python解释器的默认调用路径:which python 输出结果(不同设备可能不同):/usr/bin/python在shell中逐行输入下面命令,调用python并查看python解释器和模块库包的调用路径:python3import syssys.path 输出结果:(不同设备结果不同)['/Library/Developer/CommandLineTools/Library/Framewo.

2021-09-25 23:27:44 2510

原创 Python机器学习建模的标准流程(特征工程+建模调参+模型评估+全流程可视化)

作者CSDN:进击的西西弗斯本文链接:https://blog.csdn.net/qq_42216093/article/details/116994199版权声明:本文为作者原创文章,转载需征得作者同意如今机器学习炙手可热,而对于数据分析师或是从事数据相关的工作者而言,Python是一种最常用的机器学习实现方式。本文将从实践的角度出发,以经典的泰坦尼克号幸存者数据集为例,以sklearn为主要工具,全面细致地讲解Python机器学习建模的标准化流程。1. 特征工程特征工程,就是将原..

2021-09-13 19:06:59 3699 1

原创 Python数据挖掘项目:构建随机森林算法模型预测分析泰坦尼克号幸存者数据

作者CSDN:进击的西西弗斯本文链接:https://blog.csdn.net/qq_42216093/article/details/115587741版权声明:本文为作者原创文章,未经作者同意禁止转载关于随机森林算法的介绍和原理,可以参阅我的另一篇博文:随机森林算法介绍1. 项目说明该项目全流程通过Python实现,对泰坦尼克号幸存者数据集进行了专业全面的数据挖掘工作,包括数据清洗、特征工程、降维可视化、构建随机森林模型、调参可视化、绘制学习曲线、绘制ROC曲线和PR曲线等..

2021-09-09 11:10:26 7900 4

原创 随机森林算法介绍

1. 概述随机森林(Random Forests,RF),是由多棵决策树构成的集成算法,用来做分类预测,属于有监督学习,其输出的类别是由每个树输出类别的众数而定。当今在业内有着极为广泛的应用场景,从市场营销到医疗保健保险,再到用户画像和广告推荐算法,性能强大且应用广泛。2. 信息论和决策树这部分是背景知识,涉及一些基础理论知识,不想深入了解的话可以跳过,不影响后续算法实现2.1 信息论原理什么是信息?信息就是用来消除不确定性的度量。信息论是为解决信息传递问题而建立的理论,是数据挖掘的基础理.

2021-09-09 10:57:14 9896

原创 机器学习模型常用评估方法和指标

1. 学习曲线学习曲线是一种用来检测机器学习算法运行是否正常,或者改进算法模型的有效工具。它以横轴表示训练集的样本数量,纵轴表示误差(代价函数的大小,也表示预测准确率),在同一个坐标图上,分别绘制出训练集的代价函数随样本数递增的波动曲线和交叉验证集的代价函数随样本数递增的变化曲线。(1).低偏差、低方差(恰当拟合)的学习曲线:特点:随着训练样本数的增加,训练集误差曲线缓慢上升,验证集误差曲线缓慢下降。最终它们逐渐趋于水平,且保持一个较近的间隔。(2).高偏差(欠拟合)的学习曲线:.

2021-08-08 17:44:24 2275

原创 概率论完整知识汇总(值得收藏)

概率论只不过是把常识用数学公式表达了出来。——拉普拉斯一、随机事件与概率1.样本空间一个随机试验,每一个可能出现的结果称为一个样本点,全体样本点组成的集合称为样本空间(Ω)例:抛一枚均匀硬币2次,正反面结果样本空间Ω={正正、正反、反正、反反} 2.基本事件只有一个样本点的事件称为基本事件3.事件之间的运算关系A⊂B\mathrm{A} \subset \mathrm{B}A⊂B:事件A包含于事件B中A=B\mathrm{A}=\mathrm{B}A=B:事件.

2021-07-17 23:26:59 3489

原创 Python数据可视化整理

文章目录1.配置问题2. 简单绘图3.使用面向对象方式绘图4.Figure类和Axes类语法实例5.subplots()函数创建多子图语法实例6.轴刻度限制语法7.双轴设置语法实例8.条形图语法实例对普通条形图进行一下优化并列条形图(通过平移每个x值做两次bar图实现)实例堆积条形图(通过bar()的bottom参数二次作图基底设为第一次的高度来实现)示例9.饼图语法实例10.散点图实例11.直方图和密度曲线语法实例12.关键词频统计语法实例13.Andrews曲线1.配置问题字体乱码问题:找到文

2021-05-18 18:41:34 1148

原创 Pandas库常用语法

1.数据帧Dataframe数据帧DataFrame是二维数据结构,即数据以行和列的表格方式排列,可以看作由多行或多列Series格式数据组成。pandas中的DataFrame可以使用以下构造函数创建:pandas.DataFrame( data, index, columns, dtype, copy)参数:data:数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个DataFrameindex:行标签索引,可缺省值,缺省时默认为np

2021-05-18 18:18:18 802

原创 Python数据挖掘项目:基于三种肝癌样本数据的PCA分析以及神经网络分类模型的构建

作者CSDN:进击的西西弗斯本文链接:https://blog.csdn.net/qq_42216093/article/details/115587741版权声明:本文为作者原创文章,未经作者同意禁止转载或盗用1.项目说明及流程概要:项目说明本文项目是我本科毕设项目其中的数据挖掘部分,包括对三种类型的肝癌基因表达数据的PCA分析以及构建神经网络分类模型。以下是在本文的数据挖掘工作开始之前所做的准备工作:在TCGA数据库中检索并下载41位肝细胞癌患者的基因表达数据以及相应的癌.

2021-05-18 16:43:31 1759 5

原创 机器学习常用算法归详细纳整理

作者:进击的西西弗斯本文链接:https://blog.csdn.net/qq_42216093/article/details/115587741版权声明:本文为作者原创文章,未经作者同意禁止转载或盗用(没写完!持续更新中!)一、机器学习及其算法分类高清原图链接:https://img-blog.csdnimg.cn/20210505230045263.png1.介绍机器学习(Machine Learning) 是实现人工智能(Artificial Intellige..

2021-05-06 01:49:14 1494

原创 Python项目:爬取智联招聘网站的数据分析职位信息并进行可视化分析

Python项目:爬取智联招聘网站的数据分析职位信息并进行可视化分析1.项目说明以及流程概要爬取网站:智联招聘(https://sou.zhaopin.com/)开发环境:Python3.7(Pycharm编辑器),全流程通过代码实现爬取时间:2021/3/30 上午1:13 的实时招聘信息数据爬取城市:共12个,上海、北京、广州、深圳、天津、武汉、西安、成都、南京、杭州、重庆、厦门主要用到的python库:requests、BeautifulSoup、pandas、mat..

2021-04-11 02:41:38 35175 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除