数据分析
张遥
这个作者很懒,什么都没留下…
展开
-
数据预处理——以银行借贷评分卡项目为例
一、数据预处理1、读入数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdata=pd.read_csv(r'rankingcard.csv',index_col=0)data.head()看一下冰山一角的真实数据,像年龄,收入这样连续型的数据,肯定是需要先做个分箱操作的(先提一下)。2 、简单的预处理去重重置索引填补缺失值这里家庭成员数(NumberOfDependents)直接使用原创 2020-11-25 20:58:31 · 1270 阅读 · 9 评论 -
逻辑回归——乳腺癌分类
逻辑回归的数学原理逻辑回归是一种二分类的有监督学习算法。对数几率回归。损失函数采用最大似然函数的负对数。使用梯度下降算法找最优参数。对conda 自带数据集分类导包读数据划分训练集和测试集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_breast_cancerfrom sklearn.model_s原创 2020-11-20 20:14:52 · 2901 阅读 · 0 评论 -
朴素贝叶斯——新闻分类
使用朴素贝叶斯对新闻进行自动分类。导包import numpy as npimport pandas as pdimport jieba读入数据,删除空值。df_techology=pd.read_csv(r'bayes/technology_news.csv')df_techology=df_techology.dropna()df_car=pd.read_csv(r'bayes/car_news.csv')df_car=df_car.dropna()df_entertainme原创 2020-11-19 20:57:24 · 1839 阅读 · 2 评论 -
conda安装包报PackagesNotFoundError错误
先查找包(base) bash-3.2$ anaconda search -t conda sklearn返回包的相关信息根据对应的包的包名使用如下命令(base) bash-3.2$ anaconda show corjos/sklearn-pandas会直接给出安装命令 conda install --channel https://conda.anaconda.org/corjos sklearn-pandas...原创 2020-11-17 12:00:01 · 1414 阅读 · 0 评论 -
决策树算法——拟合优化
一、决策树算法原理上一篇文章简单、直接、粗暴的使用了决策树算法对鸢尾花数据集进行分类,关于决策树算法的原理,以我的理解:就是用能最大概率的区分不同类别标签的特征值作为分裂节点。常用的算法是:CART 和 ID3 算法。CART 算法采用gini系数最小的来决定使用哪种特征来进行分裂;ID3算法采用信息增益最大的特征来决定使用哪种特征来进行分裂;二、决策树的最优参数这次的数据集使用稍微复杂一点的泰坦尼克号预测生死的数据。重复的代码不啰嗦,直接上import numpy as npimport原创 2020-11-12 19:43:04 · 3887 阅读 · 0 评论 -
决策树算法入门——鸢尾花数据集
训练决策树模型话不多说,数据分析必备的三个包先导入import numpy as npimport pandas as pdimport matplotlib.pyplot as plt导入机器学习算法的决策树模块,数据使用jupyter自带的鸢尾花数据集from sklearn import datasetsfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_te原创 2020-11-11 20:45:04 · 3270 阅读 · 8 评论 -
关于Mac电脑conda打开终端报:anaconda/navigator/a.tool: line 1: syntax error near unexpected token `(‘ 错误
在conda中打开终端打开后有一个错误这个错误原因是因为Mac环境是zsh,需要切换成shell环境。关掉终端,从新打开输入下面的命令chsh -s /bin/bash然后需要输入密码验明身份再次再conda中打开终端,可用了。然后输入命令即可运行pip install jupyter_contrib_nbextensionsjupyter contrib-nbextension install --user...原创 2020-11-02 17:13:39 · 783 阅读 · 1 评论 -
pyecharts对成都java岗位经验要求及学历要求做可视化分析
上一篇文章对岗位的分布情况有了大致的了解,那企业的用人要求又是怎样的呢?接下来对岗位的经验要求以及学历要求做一个描述性统计分析。首先,还是导入需要的包,这次使用饼图,导入Pie。from pyecharts.charts import Piefrom pyecharts import optionsimport csv在上一篇文章清洗数据的基础上改一改切片的位置就可以啦!def prepare_data(): with open('file/java招聘.csv')as f:原创 2020-09-05 19:01:30 · 342 阅读 · 0 评论 -
使用pyecharts对成都java岗位分布做可视化分析——接上篇
上一篇文章详细描写了从某个招聘网站爬取某个岗位的详细过程。这次,将使用python中的pyecharts库做一个入门级分析。pyecharts库中包含多种作图方式,这次只选择几个常用的图做基本展示。先使用柱状图按城区分类统计招聘数量。首先,导入需要使用的类,然后先查看一下前五条数据。from pyecharts.charts import Barfrom pyecharts import optionsimport csvwith open('file/java招聘.csv')as f:原创 2020-09-04 20:54:40 · 312 阅读 · 0 评论