自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(229)
  • 资源 (24)
  • 收藏
  • 关注

原创 【python数据分析】正态分布、正态性检验与相关性分析

正态分布、正态性检验与相关性分析1 正态分布2 正态性检验2.1 直方图初判2.2 QQ图2.3 K-S检验2.3.1推导过程2.3.2 直接一行代码调用3 相关性分析3.1 图示初判3.2 Pearson相关系数3.2.1 计算推导3.2.2 代码一步到位3.3 Sperman秩相关系数3.3.1 计算推导3.3.2 代码一步到位4 总结1 正态分布正态分布概念是由法国数学家和天文学家棣莫弗(Abraham de Moivre)于1733年首次提出的,后由德国数学家Gauss率先将其应用于天文学研究

2021-02-23 00:05:05 147 1

原创 【python数据分析】绘制帕累托图(Pareto)步骤解析,并封装成类直接调用

python绘制帕累托图步骤解析,并封装成函数直接调用帕累托图帕累托图帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”比如:一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润...

2021-02-20 23:46:21 65 1

原创 【深度学习】感知器、线性神经网络案例应用、BP神经网络算法详细推导

感知器、线性神经网络、BP神经网络及手写数字识别1. 单层感知器2. 线性神经网络3. Delta学习规则和梯度下降法4. BP神经网络介绍及详细推导5. 手写数字识别1. 单层感知器2. 线性神经网络3. Delta学习规则和梯度下降法4. BP神经网络介绍及详细推导5. 手写数字识别...

2021-02-03 09:06:04 55 3

原创 【深度学习】机器学习基础(数据集、半/无/监督学习、回归/分类/聚类)

训练数据、验证数据以及测试数据1 数据集2 监督学习/半监督学习/无监督学习2.1 监督学习(supervised learning)2.2 无监督学习(Unsupervised Learning)1 数据集建模之前,一般会把数据分为三部分,也就是我们常听到的:训练集(Training data)验证集(Validation data)测试集(Test data)各自的作用分别为:训练集用来训练,构建模型验证集用来在 模型训练阶段 测试模型好坏等模型训练好了,再用测试集来评估模型的好

2021-01-29 14:47:31 60

原创 【计算机视觉】摄像头人脸识别、视频文件人脸识别

摄像头人脸识别、视频文件人脸识别1. 摄像头人脸识别1.1 预先导入库1.2 调用摄像头进行人脸识别二级目录三级目录1. 摄像头人脸识别前面已经梳理了OpenCV调用摄像头的操作和利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别,这里就讲两者结合起来实现对摄像头中出现的人脸进行检测1.1 预先导入库import cv2import numpy as np1.2 调用摄像头进行人脸识别① 首先获得摄像头② 然后使用级联分类器,识别摄像头中的人脸③ 接着就是对人脸出现的位置进行绘制举

2021-01-29 09:34:06 99

原创 【计算机视觉】OpenCV摄像头调用、视频读取、保存

OpenCV摄像头调用、视频读取、保存1 摄像头的读取2 读取视频文件3 播放视频文件4 视频文件写入手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 摄像头的读取先给出一段代码如下,然后再进行讲解import cv2import numpy as np# 从摄像头获取图像数据cap = cv2.VideoCapture(0)while(True): # ret

2021-01-29 00:26:42 77

原创 【计算机视觉】图像梯度滤波器(Sobel、Scharr、Laplacian算子)及Canny边缘检测

图像梯度滤波器(Sobel、Scharr、Laplacian算子)及Canny边缘检测1 图像梯度滤波器1.1 图像梯度介绍1.2 梯度滤波器Sobel算子和Scharr算子:Laplacian算子:2 操作实例3 Canny边缘检测3.1 Canny使用3.2 阈值选择手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 图像梯度滤波器1.1 图像梯度介绍假定:III 是图像像素的值

2021-01-28 22:26:53 31 2

原创 【计算机视觉】图像二值化Thresholding(自动选择阈值和自适应阈值)

图像二值化Thresholding1 Thresholding二值化介绍2 Otsu’s Method自动选择阈值3 Adaptive Thresholding自适应阈值手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 Thresholding二值化介绍在图像处理中,Thresholding中文翻译过来叫二值化或者阈值化。二值化就是把图片传换成只有white和black这两种颜色。通

2021-01-28 17:30:07 128

原创 【计算机视觉】图像平滑(平均模糊、高斯模糊、中值模糊、双边滤波)及颜色空间转换

图像平滑(平均模糊、高斯模糊、中值模糊、双边滤波)1 Averaging平均2 Gaussian高斯模糊3 Median中值模糊4 Bilateral双边滤波5 颜色空间转换5.1 RGB5.2 HSV5.3 L\*A*B5.4 Grayscale 灰度图手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 Averaging平均计算卷积框覆盖区域所有像素的平均值得到卷积的结果,其中核的

2021-01-28 16:19:44 82

原创 【计算机视觉】图像形态学操作(腐蚀、膨胀、开/闭运算、梯度、黑/白帽)

图像形态学操作(腐蚀、膨胀、开/闭运算、梯度、黑/白帽)1 卷积的介绍1.1 卷积操作示意图1.2 卷积核的创建2 Erosion腐蚀3 Dilation膨胀4 Opening开运算5 Closing闭运算6 先开再闭运算7 Gradient形态学梯度8 Top Hat 顶帽/White Hat 白帽9 Black Hat黑帽手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 卷积的介绍

2021-01-28 12:44:16 71

原创 【计算机视觉】图像算术、位运算、遮挡、切分合并通道、图像金字塔

这里写目录标题1 图像算术1.1 图像加法二级目录三级目录1 图像算术1.1 图像加法对比如下计算,可以发现对于图像的加法如果超过了255,最终结果会取到255,但是普通的计算,在结果超过255后下一个数就是0,所以最终结果本来是300,转化为uint8(最大数值为255)数据类型后,就是44了二级目录三级目录...

2021-01-28 10:00:18 35

原创 【计算机视觉】画图基本操作及图像翻转、裁剪

画图基本操作0 绘图准备1 绘制直线2 绘制矩形3 绘制圆形4 图像翻转5 图像裁剪手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!0 绘图准备为了方便之后的图片加载和显示,这里之间将前面对图片处理的函数封装,并保存为imutils.py文件,其中代码如下(以下代码在图片平移操作的过程中已经讲解过了)import matplotlib.pyplot as pltimport cv2

2021-01-27 23:00:25 51 2

原创 pandas层次性索引MultiIndex变化操作

pandas层次性索引MultiIndex变化操作需求背景问题求解手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!需求背景1、有没有方法可以向如图”平仓订单数“的下级插入2个占比字段?即跟”平仓订单数“下的亏损、盈利字段同级别2、有没办法把列的级别调整为如图所示表格?问题求解由于没有真实的数据,这里就是使用0-15共16个数据创建四行四列的数据,创建的数据结果如下impor

2021-01-03 22:19:21 150

原创 PySimpleGUI制作复杂界面及制作批量重命名软件

PySimpleGUI制作复杂界面及制作批量重命名软件1 界面设计的基本方式2 制作持续显示的界面3 文字元素3.1单行输入元素的设置3.2 多行显示/输入文字元素3.3 多行显示/输入文字元素更新、输出方法4 列表元素4.1 下拉列表4.2 列表选项5 滑动条元素6 单选框元素7 多选框元素8 加载图片9 按钮元素10 进度条元素11 Frame框架元素12 主题配色13 实战:批量重命名软件制作手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于

2020-12-16 21:04:37 284 2

原创 PySimpleGUI图形界面绘制及办公自动化小软件的制作

PySimpleGUI图形界面绘制及办公自动化小软件的制作1 PySimpleGUI安装2 PySimpleGUI制作简易弹窗界面2.1 两种界面设计模式2.2 制作弹窗2.3 文字内容弹窗2.4 获取用户输入的弹窗2.5 文件选择弹出窗口2.6 文件夹选择窗口2.7 进度条弹窗3 制作简易压缩软件3.1 功能需求:3.2 功能拆解:手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 P

2020-12-15 21:32:53 3365 14

原创 python自建局域网服务器传输文件

python自建局域网服务器传输文件1 python自带HTTP服务器1.1 查找网络ip1.2 从打开文件所在路径快速打开命名行1.3 使用Python自带的http.server2 pyftpdlib第三方库2.1 pyftpdlib安装2.2 运行pyftpdlib2.3 允许用户也进行上传文件、修改3 注意事项手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 python自带H

2020-12-14 14:22:09 246

原创 利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别

利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别1. 简单的小示例2三级目录1. 简单的小示例直接对一张图片中的人脸进行标记,目的就是找到所有的人脸,如下基本流程:读取照片创建级联分类器进行人脸检测截图人脸位置展示图片代码如下:(haarcascade_frontalface_alt.xml文件已将上传至资源)import cv2import matplotlib.pyplot as pltimport osimport numpy as np# 简单测试img

2020-12-14 11:44:12 337

原创 Pillow基本操作及批量进行图片的格式的实战应用

Pillow处理图片及实战应用1 pillow安装1 图片读取、保存和格式转换2 图片剪切、粘贴和几何变换1 pillow安装打开命令行,输入pip install pillow,等待安装完成(我已经安装过了),目前最新版的是8.0.1(如果不是最新版本可能有些用法会不同)。然后输入python回车,如果在输入import PIL没有问题则说明安装成功1 图片读取、保存和格式转换(1) 图片读取from PIL import Imageimg = Image.open('demo.jpg')

2020-12-13 11:58:09 108

原创 将多列单元格中的多个数据拆分为多行数据(explode方法扩展使用)

将多列单元格中的多个数据拆分为多行数据(explode方法扩展使用)1 业务需求2 发现问题3 解决问题实际操作1 业务需求在经过昨天梳理通过日期字段提取年月日、timedelta提取时分秒并进行小时汇总后,今天发现业务需求中里面要求对入职时间和培训时间的信息进行处理分析,结果拿到的数据是一个单元格里存在多个数据,如下2 发现问题根据昨天梳理的博客,可以直接尝试进行两个字段的相加减的操作,试一下,结果就是因为上面的图示,数据中将两个人的信息填报到一个表格中了,而且两列的数据是一一对应的3 解决

2020-11-27 12:48:46 114

原创 通过日期字段提取年月日、timedelta提取时分秒并进行小时汇总

通过日期字段提取年月日、timestamp提取时分秒并进行小时汇总1 业务需求2 根据时间字段提取年月日3 根据timestamp提取时分秒并进行小时汇总1 业务需求在进行数据分析,经常会遇到时间处理的问题,有时候需要从时间字段中直接提取年月日,在进行汇报工作的时候会被要求进行汇报时间和完成时间的差值计算,并统计出时分秒,于是面对真实的业务需求,就对这个问题进行梳理一下 ,梳理结果如下图2 根据时间字段提取年月日方法:就是将时间字段转化成为datetime数据,然后提取year、month、day

2020-11-26 22:26:07 290 3

原创 jieba基本使用过程

jieba分词0 引言1 jieba库安装2 jieba库文件查看3 基本使用4 词性标注5 自定义词典和加载自定义词语6 关键词提取与位置查找0 引言今天起正式开始对于文本挖掘相关知识的学习,之前都是东学一点,西学一点,没有一个体系,希望接下来可以好好把这方面的知识梳理一下,方便学以致用。今天梳理知识点就是jieba分词,采用逐步梳理的方式进行python环境使用的是miniconda里面的jupyter notebook1 jieba库安装关于jieba这个库的介绍,就不多说了,主要就是和分词

2020-11-24 21:17:48 233

原创 Numpy用法梳理

Numpy使用梳理1 Numpy介绍1.1 科学计算1.2 Numpy历史和发展1.3 Numpy的安装2 Numpy和Python List的对比2.1 相同之处2.2 不同之处2.3 操作实践3 array()数组3.1 array()数组的生成及列表转换3.2 多维数组的创建4 arange()功能1 Numpy介绍1.1 科学计算科学计算主要是利用计算机的算力进行数据的计算和方程求解,具体包括如下内容:一个强大的N维数组对象 ndarray广播功能函数整合 C/C++/Fortran

2020-11-21 00:17:16 132

原创 【线性代数(13)】矩阵的特征值与特征向量含义及性质

矩阵的特征值与特征向量1 基本定义2 性质3 计算例1例2例34 特征值与特征向量的性质注意:由于已经过了大学要考线性代数的年纪,关于矩阵的初等变化、齐次与非齐次方程的求解这种期末考试要计算的问题没有进行梳理注意:由于已经过了大学要考线性代数的年纪,关于矩阵的初等变化、齐次与非齐次方程的求解这种期末考试要计算的问题没有进行梳理注意:由于已经过了大学要考线性代数的年纪,关于矩阵的初等变化、齐次与非齐次方程的求解这种期末考试要计算的问题没有进行梳理1 基本定义假设AAA是方阵(基调:就是特征值和特征方

2020-11-19 21:44:35 305

原创 Mysql 5.x安装过程梳理

Mysql 5.x安装过程梳理1 资源文件及说明2 文件压缩与配置2.1 解压缩2.2 文件配置3 mysql启动3.1 切换至bin目录3.2 开启数据库服务3.3 登录数据库4 后台服务开启4.1 Navicat连接本地数据库4.2 后台服务开启5 完结1 资源文件及说明提供的是Mysql 5.5.40版本,已上传至资源,另外附有Navicat for Mysql软件安装包,该软件的具体破解方式可参照:文字版讲解、视频版讲解需要注意的一点:在最后启动激活Navicat工具第三步的时候时候,需要选择

2020-11-18 13:32:22 953

原创 【线性代数(12)】线性方程组、方程组解的结构

线性方程组、方程组解的结构1 线性方程组2 方程组有解的判定2.1 方程组的向量和矩阵表示2.2 方程组解的判定1 线性方程组最熟悉的鸡兔同笼的问题,假使鸡兔共八只,腿共20条,请问有多少鸡和兔子?古人思路:1)抬脚法:兔子抬起两只脚,那么鸡兔共16条腿,剩下4腿就是兔子的,所以兔子2只,鸡6只2)落脚法:假使鸡有四条腿,都落下来,鸡兔共32条腿,多的12条腿就是鸡的,所以鸡6只,兔子2只如果使用现代的方程组的思路就是:设鸡有xxx只,兔子yyy只,方程组为:{x+y=82x+4y=20⇒{x

2020-11-11 16:42:14 156 2

原创 【线性代数(11)】极大线性无关组、向量组的秩

向量组的秩1 极大线性无关组2 向量组的秩3 极大线性无关组的求解手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处,谢谢!1 极大线性无关组如下,四个向量构成的向量组,其实经过简化后可以直接使用两个向量进行表示(10)(20)(010)(05)⇒(10)(05) \left(\begin{matrix} 1\\0\end{matrix}\right) \left(\begin{matri

2020-11-11 11:13:03 250

原创 【线性代数(10)】向量线性相关与线性无关

n维向量及其运算、向量线性相关与线性无关1 向量间的线性关系2 向量组的等价3 线性相关与线性无关4 定理1 向量间的线性关系向量定义:n个数a1,a2...ana_{1},a_{2}...a_{n}a1​,a2​...an​组成的有序数组(a1,a2...an)(a_{1},a_{2}...a_{n})(a1​,a2​...an​),按照表示的方式不同可以分为行向量和列向量线性组合:β,α1,α2...αn\beta,\alpha_{1},\alpha_{2}...\alpha_{n}β,α1​,α

2020-11-10 21:57:32 232

原创 时间序列特征分析汇总(以2012-2019年槽罐车事故数据为例)

事故时间特征序列分析汇总引言1 数据读取和时间特征转化1.1 先将时间的字段组合成为统一的形式1.2 再将标准形式的日期字段转化为datetime1.3 提取年、月、日字段信息1.4 查看日期是在第几周1.5 查看日期是在周几2 特定字段的数据提取2.1 字符串extract方法使用2.2 apply/map结合正则表达使用3 单字段多特征进行计数统计3.1 将所有的特征都添加到列表中,转化为Series数据进行计数3.2 使用字典计数的方式进行统计3.3 使用pd.explode()方法提取多特征转化为S

2020-11-10 15:46:04 970 12

原创 应急管理部网站爬取重特大事故督办信息并进行数据清洗

应急管理部网站爬取重特大事故督办信息并进行数据清洗引言1 Robots协议2 网站请求初试3 外层信息的获取3.1 网页规律查找3.2 完善获取url的函数3.3 请求外层信息4 内层数据获取4.1 封装获取具体url链接的函数4.2 封装获取具体内容的函数4.3 启动爬虫4.4 最后异常处理5 数据清洗6 全部代码6.1爬虫代码6.2 数据清洗代码手动反爬虫:原博地址 知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息如若转载,请标明出处

2020-11-09 23:13:54 129

原创 【线性代数(9)】矩阵的秩

矩阵的秩1 k阶子式和秩的定义2 矩阵的秩的定理3 有关秩的性质1 k阶子式和秩的定义给定一个矩阵,任取k行和k列交叉元素,组成的行列式,就成为k阶子式,比如A3X4A_{3X4}A3X4​取2阶子式,可以取前两行和后两列,结果如下:(由于只有3行,所以最多有3阶子式)A=[2,2,2,23,3,3,21,1,1,1]    k2=∣2,23,2∣A = \left[ \begin{matrix} 2,2,2,2\\3,3,3,2\\1,1,1,1 \end{m

2020-11-09 18:29:03 318

原创 【线性代数(8)】矩阵行列式、伴随矩阵、逆矩阵

逆矩阵1 矩阵行列式2 伴随矩阵3 逆矩阵3.1 逆矩阵概念3.2 逆矩阵的性质1 矩阵行列式方阵的行列式:将矩阵中的元素拿出来,用行列式的形式表示A=[2,2,23,3,31,1,1]    ∣A∣=∣2,2,23,3,31,1,1∣A = \left[ \begin{matrix} 2,2,2\\3,3,3\\1,1,1 \end{matrix} \right]\space \space \space \space |A|=\begin{vmatri

2020-11-06 13:07:53 615 2

原创 【线性代数(7)】矩阵概念和矩阵运算

矩阵概念1 矩阵表示2 矩阵与行列式的区别3 矩阵运算3.1 矩阵加法3.2 矩阵减法3.3 矩阵数乘4 矩阵乘法5 矩阵的幂运算6 矩阵的转置运算1 矩阵表示矩阵是有一些数按行按列构成的数表,比如下面就是4x5矩阵(用字符表示就是A4X5A_{4X5}A4X5​),其中4代表着矩阵的行数,5代表着矩阵的列数,aija_{ij}aij​代表矩阵中的元素[abcdefghijklmnopqrst]\left[ \begin{matrix} a & b & c & d &

2020-11-05 21:47:07 123

原创 结合命令行和可视化软件对mysql知识点进行详细梳理

MySQL数据库知识点梳理前言一、MySQL基本语法1.1 MySQL日常使用1.1.1 MySQL客户端连接1.1.2 了解MySQL的数据库和表1.2 MySQL的系统安全性1.2.1 MySQL安全原则1.2.2 MySQL安全性操作实例实例1:管理用户实例2:创建用户账号实例3:删除账号实例4:设置访问权限实例5:更改密码1.2.3 MySQL密码丢失数据的回复实例6: 普通用户密码丢失情况下的恢复实例7: Root密码丢失情况下的恢复二、MySQL案例数据库及建库表操作2.1 MySQL案例数据

2020-10-24 08:12:23 497 4

原创 大数据预处理:缺失值处理、数据标准化、0-1缩放、归一化、二值化、独热编码和标签编码

数据预处理:数据标准化、0-1缩放、归一化、独热编码和标签编码、缺失值处理前言一、缺失值处理二、数据标准化三、0-1缩放四、归一化五、独热编码六、标签编码总结前言在进行数据分析之前,需要了解数据的情况,有时候拿到的数据并不是想象中的完美数据,那么就需要进行预处理,才能使用。为了系统的缕清预处理的一般的步骤,这里进行系统详细的梳理,这里使用sklearn工具包和手写代码验证的方式进行一、缺失值处理最常见的数据情况就是缺失部分数据,那么怎么处理缺失值?有没有固定的公式呢?处理方式:1) 删除:缺失样本

2020-10-18 12:06:57 602 2

原创 贝叶斯新闻分类实战项目详解

贝叶斯新闻分类前言一、贝叶斯公式推导二、拼写纠正实例三、垃圾邮件过滤实例总结前言关于贝叶斯要解决的问题(贝叶斯方法源于他生前为解决“逆概”问题写的一篇文章):正向概率:假设袋里面有N个白球,M个黑球,伸手进去摸一把,摸出黑球的概率有多逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或者好几个球),观察这些取出来球的颜色后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测还是举个具体的例子进行理解逆向概率,如下假设学校男生占60%,女生占40%,男生总是喜欢穿长裤

2020-10-11 11:05:26 875 14

原创 【机器学习】快速贴标签和找标签对应的数据

快速贴标签和找标签对应的数据前言需求一、贴标签二、找标签对应的数据总结前言需求在进行机器学习的过程中,模型创建之前,需要进行标签的处理,比如将文本数据转化为数值,而在最后的预测时候,又想检验一下预测的标签结果是否对应的文本数据一致,因此就有了快速贴标签和找标签对应数据的要求。一、贴标签这里就使用10个文本数据进行举例ls = ["汽车", "财经", "科技", "健康", "体育", "教育","文化","军事","娱乐","时尚"]贴标签的过程就相当于是让列表中的数据一一对应上数值,那么使

2020-10-11 10:22:42 425

原创 逻辑回归案例模板——信用卡欺诈检测

信用卡欺诈检测1. 加载数据,观察问题2. 针对问题给出解决方案3. 数据集切分4. 评估方法对比5. 逻辑回归模型6. 建模结果分析7. 方案效果对比1. 加载数据,观察问题数据来源于已经脱敏的数据,上传至资源2. 针对问题给出解决方案3. 数据集切分4. 评估方法对比5. 逻辑回归模型6. 建模结果分析7. 方案效果对比...

2020-10-09 18:39:21 507 2

原创 【机器学习17】聚类K-MEANS和DBSCAN算法详解

聚类算法详解前言一、K-MEANS算法1.基本流程2.优缺点二、DBSCAN算法总结前言前面已经介绍了决策树模型和集成学习模型等内容,无论使用它两用来做回归还是分类任务都是有一个预定对比的y值(也就是标签),如果数据中没有这个标签了,只是一群离散的值,该怎么处理呢?这就涉及到本次梳理的内容了,也就是聚类问题(属于无监督,没有预定对比的条件了),最终目的要是把相似的东西分到一组,主要的难点在于如何对创建的模型进行评估和参数调整,因为没有y了,之前的那些评估的方法也自然就不适用了,本次梳理将详细地介绍相关的

2020-09-21 22:20:12 758

原创 【机器学习16】集成学习及算法详解

集成算法详解前言一、随机森林算法原理二、随机森林的优势与特征重要性指标1.随机森林的优势2.特征重要性指标三、提升算法概述四、堆叠模型简述五、硬投票和软投票1.概念介绍2.硬投票代码实现3.软投票代码实现六、Bagging策略效果七、决策边界可视化展示八、OOB袋外数据的作用九、特征重要性可视化展示十、AdaBoost算法决策边界展示十一、Gradient Boosting梯度提升算法十二、集成参数对比分析十三、提前停止策略总结前言前一篇博客对决策树算法进行了详解,属于建立模型的基础,如果想要机器学习的

2020-09-20 21:54:14 1403 3

原创 【机器学习15】决策树模型详解

决策树算法前言一、决策树算法的概述1.树模型2.树模型基本流程二、熵的作用三、决策树构造实例四、信息增益率和gini系数五、剪枝方法六、分类、回归任务七、树模型的可视化展示八、决策边界展示分析九、决策树预剪枝常用参数十、回归树模型总结前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的决策树的详细内容。一、决策树算法的概述1.树模型决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

2020-09-19 20:12:26 4295 8

中国全部31个省市区的经纬度信息数据(2020年4月29日爬取)

该压缩包中包含全国各省市区的汇总经纬度数据(精度在小数点5位及以上),还有按照各个省份分别统计的市区县对应的经纬度数据。数据爬取时间为2020年4月29日爬取

2020-04-29

上海行政区、人口和道路的gis数据.zip

用于博客python数据分析实战中餐馆选址中的数据支撑,包含了上海市行政区、人口和城市道路三个gis数据,可以直接加载

2020-11-25

项目:国产烂片深度揭秘.zip

本数据资源来源于豆瓣电影数据的爬虫所得,共有数据2458条,作为本博客栏目下的python数据实战分析中国产烂片深度解析的数据来源

2020-05-07

信用卡欺诈项目数据和文件.zip

本资源用于博客栏目中的机器学习实例详解中逻辑回归案例模板——信用卡欺诈检测,包含数据和完整的流程ipynb文件

2020-10-09

opencv人脸识别实战操作.zip

本资源包含了博客:利用open-cv对黄晓明、AB、刘亦菲图片进行人脸识别一文中的所需材料和源代码,用于交流学习,不涉及商业用途

2020-12-14

mysql和navicat.zip

本资源用于博客:Mysql 5.x安装过程梳理中的软件部分,文件中包含了mysql5.540版本的数据库文件和navicat15版本的软件安装包,只用作于学习交流参考。

2020-11-16

时间序列分析.zip

资源是博客:时间特征序列分析汇总(以2021-2019年槽罐车事故数据为例)一文中的数据和ipynb文件,用于对于交流和学习

2020-11-10

贝叶斯新闻分类实战项目文本和停用词数据

本资源是对贝叶斯新闻分类实战项目详解博客一文中的数据资料补充,包含了文本数据,停用词,ipynb文件,仅供读者参考

2020-10-22

全国市级边界shp高分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,属于中国市级地图的json数据格式

2020-05-26

项目:知乎数据.zip

本资源为知乎数据信息爬取,用于做python数据分析实战项目,数据字段包含_id 关注的收藏夹、关注、关注者、关注的问题、关注的话题、关注的专栏、职业1、职业2、回答、提问 、收藏、个人简介、居住地、所在行业、教育经历、职业经历等信息

2020-05-08

项目:电商打折套路解析.zip

本资源为淘宝美妆双十一前后的爬虫数据,时期为11月5-11月14号,作为本博客的python数据分析实战的电商套路分析的数据来源

2020-05-07

机器学习数据.zip

本资源作为专栏机器学习专栏的原始数据,包含了简单的数据,未处理的数据和最终处理完成后的房价数据,用于机器学习相关知识的学习

2020-05-07

上海餐饮数据.zip

本数据集作为【python数据分析实战】城市餐饮店铺选址问题(1)—— 对不同菜系进行比较,并筛选出可开店铺的餐饮类型 中的数据支撑

2020-06-16

链家网出租房源详细信息

本资源就是作为链家网出租房信息的爬虫数据,旨在用于博客正则表达式分组及pandas实用操作一文的数据来源。

2020-05-23

机器学习源码.zip

用于博客中机器学习部分的参考,作为资源的补充,进行知识的分享,资料的运行环境是在jupyter notebook下进行的

2020-04-25

鲁迅对于《祝福》中祥林嫂的情感倾向分析.ipynb

本资源是博客【python舆情分析(5)】 情感倾向分析之鲁迅《祝福》里对祥林嫂(特定人物)的情感倾向 的资料补充,作为学习资料进行参考的

2020-03-26

chinadata.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,属于中国省市级地图的json数据格式

2020-05-26

virus_data.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,数据整理不易

2020-05-26

数据爬取:六普常住人口数.zip

本资源为全国第六次人口普查各省市常住人口数量,共统计各省市数据量677条,其中包含各省的统计以及其下辖的区县的人口数据 。用于统计分析和数据处理

2020-05-08

全国县级边界shp低分辨率.zip

本资源为博客【python数据分析】详解疫情数据地图可视化步骤一文中的数据来源,供学习参考时候,属于中国县级地图的json数据格式

2020-05-26

2_class.rar

这个资源仅用于本博客(【深度学习】利用tensorflow2.0卷积神经网络进行卫星图片分类实例操作详解)的复习分享用,

2020-02-12

江苏省科学技术综合奖.zip

本数据为江苏省科学技术综合奖近十年来的全部的获奖人员及详细信息的名单,包含了doc、xls和pdf数据,主要用来做项目分享

2020-05-16

projects.zip

该资源是作为【机器学习(14)】指定路径下文件的选取、数据缺失值查询及处理、帕累托分析、多文件数据合并与线性回归预测一条龙解析(全过程函数式编程)博客的资源补充

2020-03-19

auto_office1.zip

用于输出目录所有文件夹这篇文章的示例,读者可以根据文章的内容和代码进行auto_office1.zip压缩文件的使用

2020-01-18

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除