python
文章平均质量分 91
白白的一团团
这个作者很懒,什么都没留下…
展开
-
【python】玩转数据分析、建模、人工智能常用的package整理
【python】数据分析、建模领域常用package整理一、python读取各种格式的文件1、pdf文件——pdfplumber2、word文件——docx3、excel文件——xlrd一、python读取各种格式的文件1、pdf文件——pdfplumber2、word文件——docxfrom docx import Document#读取word文档document = Document('sample.docx')#获取所有段落all_paragraphs = document.para原创 2022-04-28 08:20:55 · 2106 阅读 · 0 评论 -
【python】python multiprocessing多进程处理dataframe,快得飞起~
【python】python multiprocessing多线程处理dataframe,快得飞起~建模过程中的特征工程工作往往是最耗时的大工程,很多场景下要使用pandas对数据进行加工处理,但pandas对数据的处理不能像Lightgbm训练数据一样自动设置了满线程运算(通过num_threads参数调控),导致其对数据的处理效率非常低下,尤其是在一个多核服务器上处理数据时,如果不做特殊处理,pandas对数据的运算只能使用一个核,是对时间和资源的极大浪费,本篇博客就来分享一下如何使用multipro原创 2022-01-07 18:21:34 · 7595 阅读 · 10 评论 -
【python】用python实现wordcloud大数据词云图分析
【python】用python实现wordcloud大数据词云图分析一、应用目的二、工具包安装及代码三、中文不能正常显示四、关键词重复五、最终结论一、应用目的大数据词云(wordcloud)分析常用于在冗长的文本数据中提取最高频、最关键的信息。二、工具包安装及代码首先我们需要对文本进行切词处理pip install jieba#读入数据,把所有企业名称用空格连接,整合成一个大文本变量tres = pd.read_csv('data.csv')t = res.loc[(res['所属行业']=原创 2021-03-16 22:06:58 · 3479 阅读 · 0 评论 -
【机器学习与算法】python手写算法:softmax回归
【机器学习与算法】python手写算法:softmax回归算法原理python实现算法结果展示sklearn实现softmax回归算法原理softmax回归用于解决多分类问题。它的基本思想是计算样本属于每一个类别的概率,属于哪个类别的概率最大,则预测输出为哪一类。softmax计算概率的方式为:P(y(i)=j∣xi;θ)=eθjT⋅x(i)∑l=1KeθlT⋅x(i)P(y^{(i)}=j|x^{i};\theta) = \frac{e^{\theta_j^T\cdot x^{(i)}}}{\su原创 2020-05-12 17:36:36 · 1770 阅读 · 0 评论 -
【深度学习】TensorFlow学习之路五:DNN防止过拟合的几种方法及TensorFlow实现
【深度学习】TensorFlow学习之路五一、Early Stopping二、L1和L2正则化三、随机失活四、max-norm正则化五、数据扩增本系列文章主要是对OReilly的Hands-On Machine Learning with Scikit-learn and TensorFlow一书深度学习部分的阅读摘录和笔记。DNN通常会拥有成百上千个参数,这就让DNN拥有了极大的自由度,所以对于复杂问题的拟合往往效果较好。但自由度太大也会让DNN极易过拟合。本篇介绍几种常用防止DNN过拟合的方法及Te原创 2020-05-09 19:49:32 · 812 阅读 · 0 评论 -
【深度学习】TensorFlow学习之路四:几种梯度下降优化算法
【深度学习】TensorFlow学习之路四一、动量下降(Momentum)二、Nesterov加速梯度三、AdaGrad四、RMSProp五、Adam优化算法六、学习率优化方案本系列文章主要是对OReilly的Hands-On Machine Learning with Scikit-learn and TensorFlow一书深度学习部分的阅读摘录和笔记。训练一个规模庞大,层次较深的神经网络会相当消耗时间。为了加快神经网络的训练速度,我们已经介绍过,可以从以下几个方面入手进行优化:选择较合理的参数原创 2020-05-08 20:38:59 · 3230 阅读 · 0 评论 -
【深度学习】TensorFlow学习之路三:梯度消失\爆炸及解决办法
【深度学习】TensorFlow学习之路二一、梯度消失\爆炸本系列文章主要是对OReilly的Hands-On Machine Learning with Scikit-learn and TensorFlow一书深度学习部分的阅读摘录和笔记。一、梯度消失\爆炸为什么会有梯度消失和爆炸如我们上一章提到的,深度神经网络优化方法为求出损失函数对每一个参数的梯度,然后让每个参数沿着梯度一步步...原创 2020-05-07 18:08:39 · 1291 阅读 · 1 评论 -
【深度学习】TensorFlow学习之路二:ANN简介及TensorFlow实现
【深度学习】TensorFlow学习之路二一、感知机(Perceptron)二、多层感知机和后向传播本系列文章主要是对OReilly的Hands-On Machine Learning with Scikit-learn and TensorFlow一书深度学习部分的阅读摘录和笔记。一、感知机(Perceptron)感知机是最简单的ANN(Artificial Neural Network)...原创 2020-05-04 23:49:34 · 1366 阅读 · 0 评论 -
【机器学习与算法】python手写算法:Kmeans和Kmeans++算法
【机器学习与算法】用python实现Kmeans和Kmeans++算法背景K-means算法python代码结果对比背景K-Means算法因其算法简单,收敛快等特点而成为最常用的无监督学习方法之一,K-means算法过程如下:随机选取K个中心点;计算每个样本点到K个中心点的距离,离谁最近就归为哪一类;对于每一分类,计算该分类中所有点的均值作为新的中心点;重复2-3步知道中心点基本不再...原创 2020-04-13 17:50:01 · 810 阅读 · 0 评论 -
【算法与数据结构基础】列表、栈、队列的原理及应用
【算法与数据结构基础】列表、栈、队列的原理及应用背景1、列表2、栈3、队列4、深度优先和广度优先背景为什么要了解数据结构及算法?有个很恰当的比喻,如果把编程比作习武,会用哪种计算机语言相当于学会了招式,而学习算法则相当于在修炼内功。算法能帮我们优化程序占用的空间或消耗的时间,提高我们解决问题的效率。1、列表C语言数组: C语言中列表(或叫数组)的定义方式为:int a[5],既指定了数据...原创 2020-04-11 23:55:17 · 148 阅读 · 0 评论 -
【机器学习与算法】python手写算法:xgboost源码复现
【机器学习与算法】用python实现xgboost背景知识上代码结果对比1、目标函数:linear2、目标函数:logistic背景知识关于XGB原理的解释与推导,最好就直接参看原作者陈天奇大神的PPT,这里对原理不再赘述,直接附上链接:tqchen/pdf/BoostedTree.pdf.根据PPT的内容,我们来用python对XGB算法进行一个复现,实现两种目标函数的拟合:linear...原创 2020-04-05 13:18:50 · 8511 阅读 · 26 评论 -
【机器学习与算法】python手写算法:带正则化的逻辑回归
【机器学习与算法】用python实现带正则化的逻辑回归背景代码输出结果1、两种求解方法结果:2、两种正则化结果:背景逻辑回归原理、损失函数推导、损失函数梯度推导不再赘述实现功能:1、正则化:不带正则化、L1正则化、L2正则化2、求解参数方法:梯度下降、坐标轴下降代码import pandas as pdimport numpy as npimport copyclass Lo...原创 2020-03-31 21:15:20 · 1517 阅读 · 0 评论 -
【机器学习与算法】python手写算法:Cart树
【机器学习与算法】用python实现简易Cart树背景代码输出示例背景Cart树算法原理即遍历每个变量的每个分裂节点,找到增益(gini或entropy)最大的分裂节点进行二叉分割。这里只输出最优分割变量,最优分割点,分割后的样本数、分割后的坏账率,方便用于风控决策中指定最优策略。代码import pandas as pdimport numpy as npclass CartTr...原创 2020-03-28 16:23:44 · 998 阅读 · 1 评论 -
【python】pandas中Interval和crosstab的碰撞
【python】pandas中Interval和crosstab的碰撞pandas中的Interval简介pandas中的crosstabInterval和crosstab的冲突pandas中的Interval简介在利用pandas库做数据分析时,我们经常会用到cut和qcut功能对数据进行分组,例如我们使用qcut功能将dataframe的a列进行3等分,会得到一个Series,Series...原创 2020-01-03 23:15:11 · 1183 阅读 · 1 评论