- 博客(36)
- 收藏
- 关注
原创 ❤️九款程序员必备工具,老少皆宜❤️
CSDN浏览器助手(开发者必备的浏览器插件)这是CSDN官方推出的一款浏览器插件,也是我一直在用的一款比较不错的工具、是真心推荐,有两个点让我一直在用它,第一就是使用了它之后,不仅可以自定义浏览器背景,而且去除了很多资讯和广告,留下单纯的搜索功能,这个功能还支持百度和Google等搜索方式。浏览器不就应该回归搜索这个本质吗?要那么多别的东西干嘛呢?看新闻和资讯去更专业、热闹的平台不是更好?如果要有一些东西,那也应该是开发相关的东西,所以我确实很喜欢它。其次就是它的辅助工具也丰富,例如快速生成免费
2021-08-31 18:32:18 2503 11
原创 pandas中取消科学计数法,输出显示完整(无省略号)
用python进行数据分析时,查看数据,经常发生数据被自动显示成科学记数法的模式,或者多行多列数据只显示前后几行几列,中间都是省略号的情形。汇总了下解决办法,记录:环境如下:python version == 3.7...
2022-06-21 17:20:00 3692 5
原创 OpenCV-python视频入门
目标学习阅读视频、显示视频和保存视频。 学习从相机捕捉视频并显示它。 您将学习这些函数 : cv.VideoCapture() 从视频文件、图像序列或相机中捕获视频的类 cv.VideoWriter() 捕获一个视频并逐帧处理它,保存想要的视频 从相机捕捉视频通常,我们必须用相机捕捉实时流。OpenCV 提供了一个非常简单的接口来执行此操作。让我们从相机中捕捉视频(我使用笔记本电脑上的内置网络摄像头),将其转换为灰度视频并显示。只需一个简单的任务即可开始。要
2022-03-01 17:47:44 2823
原创 Python机器学习--在线学习(Online learning)与离线学习(Offline\Batch learning)区别
前言机器学习领域中,可将机器学习算法分为在线学习和离线学习。最近在学习实时机器学习或者说增量学习相关的内容,今天使用creme这个库介绍下Online Learning的原理,以及Online Learning和Batch Learning的一些区别。Online Learning和Batch Learning的区别Batch就是目前常用的计算模式,需要离线数据,离线训练,离线评估,然后上线。也就是我们说的离线学习也通常称为批学习。离线学习的好处就是比较稳定,可以用大量数据集去训练和评估
2021-12-09 16:55:18 5620 3
原创 jupyter导出html文件隐藏代码
打开html源码,在他原来的style标签下面加上:<style> .jp-InputArea { display: None; }</style>
2021-11-04 18:27:36 617
原创 程序猿必备小技巧-Pycharm中批量添加单引号,双引号的方法
第一步:Ctrl+R 调出正则匹配工具栏第二步:填写正则表达式第一行填写:(.*?)\n第二行填写:'$1',\n第三步:勾选Match Case Regex In Selection第四步:选择要添加单引号的代码,使用shift+tab对齐到最左边然后执行Replace all...
2021-11-03 16:12:43 9798
原创 ❤️Python机器学习❤️--StandardScaler/MinMaxScaler/Normalizer之间的区别
一、数据标准化StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下常用与基于正态分布的算法,比如回归二、数据归一化MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)提升模型收敛速度,提升模型精度常见用于神经网络三、Normalizer (基于矩阵的行,将样本向量转换为单位向量)其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统
2021-10-24 00:00:00 724
原创 ❤️Python机器学习❤️--XGBoost模型不要求数据标准化详情
在使用机器学习模型之前,通常我们会对数据进行预处理,来消除noise、提升模型表现。通常根据不同模型的不同性质,需要进行的预处理也不尽相同。那么,对于当下数据分析竞赛中非常火的XGBoost来说,转化为正态分布、去除极端值、Normalization等数据预处理是否有必要呢?本文就来具体地分析一下。一、XGBoost需要去除异常值异常值是现实生活中不太可能取到的值,通常是人为原因导致的数据记录错误。有一些值我们明显发现是错误的、异常的。例如一个人的身高不可能是10m,一个人的体重不可能是875kg
2021-10-13 17:26:05 3692 4
原创 ❤️Python机器学习❤️--xgboost 和onehot是否使用归一化(标准化)
一、xgboost是否需要对数据进行归一化首先,归一化是对连续特征来说的。所以连续特征的归一化,起到的主要作用是进行数值缩放。数值缩放的目的是解决梯度下降时,等高线是椭圆导致迭代次数增多的问题。而xgboost等树模型是不能进行梯度下降的,因为树模型是阶越的,不可导。树模型是通过寻找特征的最优分裂点来完成优化的。由于归一化不会改变分裂点的位置,因此xgboost不需要进行归一化。二、xgboost是否需要进行onehotxgboost支持离散类别特征进行onehot编码,因为xgboost只支持
2021-10-13 17:13:29 2084
原创 ❤️Python机器学习❤️--分类算法实现--Sklearn中的分类算法关键参数详解
分类算法KNN分类算法基于Sklearn中的关键参数from sklearn.neighbors import KNeighborsClassifierKNeighborsClassifier(n_neighbors=5 , weights='uniform' , algorithm='auto' ,leaf_size=30 ,
2021-09-26 00:15:56 1140
原创 ❤️Python机器学习❤️--聚类算法实现--Sklearn中的聚类算法关键参数详解
聚类算法K-Means算法基于Sklearn中的参数from sklearn.cluster import KMeansKMeans(n_clusters=8 , init='k-means++' ,n_init=10 ,max_iter=300 , tol=0.0001 , precompute_distances='auto' , verbose=0 ,random_state=None
2021-09-26 00:03:26 547
原创 ❤️Python【Vaex】保姆式教程❤️
一、Vaex介绍Vaex是一种更快、更安全、总体上更方便的方法,可以使用几乎任意大小的数据进行数据研究分析,只要它能够适用于笔记本电脑、台式机或服务器的硬盘驱动器。Vaex是一个开源的DataFrame库,它可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计
2021-09-23 23:30:35 3566 2
原创 ❤️Python使用沙箱环境--虚拟环境❤️
在软件开发过程当中,经常需要两种适宜于项目的,相互独立,互不影响的开发环境。比如 python2 和 python3。这个时候,开发者希望在不换系统的情况下,可以快速,高效的切换环境,并且环境之间相互独立,那这样,沙箱环境应用而生。一般沙箱环境有anacondaanaconda的安装下载并安装Anaconda | The World's Most Popular Data Science Platform.注意环境变量的配置沙箱环境anaconda:Python开发的集成环境,集成了基本.
2021-09-20 21:58:09 1206 1
原创 ❤️《傻瓜式》Python安装-新手必备❤️
一、下载Python3.7.51.百度搜索Python,找到Python官网,点击进入:https://www.python.org/2.点击Python官网的Downloads,然后在下拉菜单中点Windows,进入版本选择页面3.进入版本选择页面,Ctrl+F 搜索3.7.3点击以下文字下载,搜索自己需要的版本进行安装DownloadWindows x86-64 executable installer二、安装Python3.7.31.将下载完成的Python3.7....
2021-09-20 21:42:35 541
原创 MySQL强化-大战牛客题-【 查找最晚入职员工的所有信息】
????前言❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀???? 每天打卡一道sql题,既是一个学习过程,又是一个分享的过程???????? 提示:本专栏解题 一律使用Mysql解题???? 要保持一个每天都在学习的状态,让我们一起努力成为算法大神吧????!???? 今天是力扣算法题持续打卡第11天????!❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀❀????h
2021-09-15 23:39:33 242 1
原创 ❤️Python基础面试题❤️——深拷贝和浅拷贝的区别
深拷贝是将对象本身复制给另一个对象。这意味着如果对对象的副本进行更改时不会影响原对象浅拷贝是将对象的引用复制给另一个对象。因此,如果我们在副本中进行更改时会影响原对象1、深拷贝copy模块里面的deepcopy方法实现。深拷贝,除了顶层拷贝,还对子元素也进行了拷贝原始对象和拷贝对象所有的可变元素地址都不一样了import copy# 定义一个列表,其中第一个元素是可变类型。list1 = [[1,2], 'fei', 66]# 进行深copylist2 = copy.deepco
2021-09-12 23:09:26 297
原创 ❤️Python连接到数据库,把取到的数据保存为excel文件❤️
将数据库中的数据保存在excel文件中有很多种方法,这里主要介绍pyExcelerator的使用。一、前期准备(不详细介绍MySQL)pip install openpyxlpip install pymysql二、代码详情import openpyxlimport pymysql# 连接数据库conn = pymysql.connect(host="localhost", user="root", passwd="输入你自己数据库密码",
2021-09-11 23:46:39 490
原创 ❤️新手入门必备❤️Mysql-sql基本常用语句大全
目录一 、常用操作数据库的命令二、修改表的命令三、对数据的操作四、多表联合查询五、DCL 数据控制语言六、DTL数据事务语言一 、常用操作数据库的命令show databases; # 查看所有的数据库create database test; # 创建一个叫test的数据库drop database test; ...
2021-09-11 13:37:51 248
原创 SQL分数排名(窗口函数的使用)
编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 93.50 || 2 | 93.65 || 3 | 94.00 || 4 | 93.85 || 5 | 94.00 || 6 | 93.65 |+----+-------+例如,根...
2021-09-08 22:06:35 681
原创 数据分析总结《pands数据处理》
目录前言导库导入数据导出数据数据合并查看数据数据选取数据处理数据分组、排序、透视有什么不全的,可以在评论区补充。具体参数可以自己查询一下这里就一一例举了前言不管是业务数据分析 ,还是数据建模。数据处理都是及其重要的一个步骤,它对于最终的结果来说,至关重要。今天,就为大家总结一下 “Pandas数据处理” 几个方面重要的知识,拿来即用。导库# 在使用之前,需要导入pandas库import pandas as pd导入数据pd.Dat
2021-09-06 11:40:06 1650
原创 SQL题:水浒传练习
表内容-- 查询编号为3对的员工信息SELECT * FROM employee WHERE id=3;-- 查询工资大于20000的员工信息SELECT * FROM employee WHERE salary > 20000;-- 查询奖金不是10000的员工信息SELECT * FROM employee WHERE comm != 10000;-- 查询职位是五虎上将的员工信息SELECT * FROM employee WHERE job = '五虎上将';--
2021-09-05 21:32:29 208 7
原创 SQL总结,满满干货,秒变SQL大佬
SQL的执行顺序Select 字段 from 表名 where 条件 group by havingfrom 表名 --> where 条件 --> select --> group by --> havingwhere的使用where后面不能使用聚合函数分组的使用SQL的条件判断语句IF表达式(二分支)select name , score , if(score >= 60 , "及格" , "不及格") as 结果 fr..
2021-09-05 15:26:38 264 2
原创 Python机器学习--算法是否需要数据标准化
需要标准化KNN、K-means、线性回归【SGD、岭回归、套索回归】、逻辑回归、不需要标准化朴素贝叶斯、线性回归【正规方程】、决策树、随机森林、xgboost什么时候标准化规范的流程:先拆分、后标准化 原因:在训练集上寻找对应的标准化参数【标准差标准化寻找 均值、标准差; 离差标准化 寻找 最小值 最大值;小数定标标准化 寻找 绝对值最大的数】;之后在训练集和测试集进行转换...
2021-09-04 17:04:27 1141 1
原创 Pythons机器学习--sklearn导包合集
# 分类算法1.KNNfrom sklearn.neighbors import KNeighborsClassifier2.朴素贝叶斯from sklearn.naive_bayes import BernoulliNB # 特征值是二分类from sklearn.naive_bayes import GaussianNBfrom sklearn.naive_bayes import MultinomialNB3.逻辑回归【二分类】from sklearn.linear_m..
2021-09-04 16:51:34 680
原创 Python机器学习--聚类-分类-回归三大算法评估指标
算法评估指标简介对于聚类,分类,回归三大算法类,有不同的算法评估指标,不同的评估指标.分类算法常用评估指标:准确率,查准率,查全率,F1-score,PR曲线,ROC曲线和AUC指标,ROC曲线下的面积就是AUC指标. 聚类算法常用评估指标:轮廓系数 SSE(误差平方和) 回归算法的评估指标:R方范围[-inf,1] (真实值与预测 ),MSE,MAE,RMSE分类算法评估指标混淆矩阵在介绍评估指标之前,先来认识一下混淆矩阵,在分类任务下,预测结果和真实结果之间存在四种不同组合,这四种
2021-09-04 14:55:50 4113
原创 Python机器学习--集成学习--XGBoost算法
XGBoost算法类型:XGBoost算法:属于集成学习算法 ,与随机森林类似,也由多颗决策树组成XGBoost算法既可以解决分类问题,也可以解决回归问题。后一棵树是在前一个树的基础上生成的后一棵树只需要拟合前K棵树和真实结果之间的误差误差可以用负梯度表示;因此可叫 梯度提升树XGboost是计算一阶导数和二阶导数,因此又称为 极端梯度提升树集成学习算法集成学习算法是通过训练多个学习器,然后把这些学习器组合起来,以达到更好的预测性能的目的。集成学习算法的分类:Bagging:弱
2021-09-04 14:25:15 1461
原创 Python机器学习--集成学习算法--随机森林算法
随机森林算法类型随机森林算法:属于集成学习算法,通俗点讲,就是将多颗决策树集合起来,就变成了随机森林。随机森林包含了回归森林和分类森林,因此随机森林既可以解决分类问题,可以解决回归问题集成学习算法集成学习算法是通过训练多个学习器,然后把这些学习器组合起来,以达到更好的预测性能的目的。集成学习算法的分类Bagging:弱学习器的生成没有先后顺序,可以进行并行训练,如果是分类任务,则预测结果为多个弱学习器的预测结果取众数,如果是回归任务,则预测结果会取多个学习器的平均值。 Boosti.
2021-09-04 14:12:04 1536
原创 Python机器学习--分类\回归--决策树算法
决策树算法类型决策树是一系列算法,而不是一个算法。决策树包含了 ID3分类算法,C4.5分类算法,Cart分类树算法,Cart回归树算法。决策树既可以做分类算法,也可以做回归算法。因此决策树既可以解决分类问题,也可以解决回归问题。一般来讲,在决策树中,根节点和分节点使用方块表示,而叶子节点使用椭圆表示。决策树的关键点在于如何取建立出一个树,如何建立出一个在可以达成目标的前提下深度最浅的树决策树中不同算法的介绍CLS、ID3、C4.5、CART四种,其中ID3、C4.5、CAR.
2021-09-03 23:27:39 2684 2
原创 Python机器学习--回归算法--逻辑回归算法
逻辑回归算法类型有监督学习的分类算法【只能做二分类】逻辑回归算法原理将线性回归的结果输入sigmoid函数中,得出预测为类1的概率(如果概率为0.2 有20%的可能属于类1,属于类0的概率是80%; 结果是类0如果概率为0.8 有80%的可能属于类1,属于类0的概率是20%; 结果是类1)线性回归算法方程sigmoid函数公式和图像逻辑回归的结果是基于线性回归计算出来的,线性回归的质量好坏会直接影响逻辑回归的结果,影响线性回归的就是回归系数。对于线性回归来说...
2021-09-03 21:35:05 195
原创 Python机器学习--回归算法--线性回归
线性回归算法的类型有监督学习的回归算法【标签是连续数据类型】线性回归基础研究父子身高关系研究父辈身高(自变量x)如何决定子辈身高(因变量y)建立方程表征关系:y = kx+b-------------这个方程是 回归方程什么是线性?什么是线性回归方程 什么是非线性回归方程?①y = kx+b ②y=$a_1x_1^2+a_2x_2^2 + c$ ③ $y = a_1x_1+a_2x_2 + c$①和③是线性方程 ----自变量x的幂 是1次方②非线性方程----自变量x的幂 大于等
2021-09-03 20:35:36 3217
原创 Python机器学习--分类算法--朴素贝叶斯算法
朴素贝叶斯算法的类型有监督学习的分类算法朴素贝叶斯算法的原理基于贝叶斯理论和特征相互独立的假设;因为假定特征相互独立让问题变的简单,因为称为朴素 朴素贝叶斯算法分为:伯努利朴素贝叶斯,高斯朴素贝叶斯,多项式朴素贝叶斯。篇幅较长,可根据旁边的目录来看朴素贝叶斯算法第一站:概率公式条件概率公式:为(即在事件B发生的情况下,事件A发生的概率):当A,B相互独立时P(AB) = P(A)∗P(B)全概率公式:贝叶斯公式:朴素贝叶斯算法第二站...
2021-08-31 22:07:25 4143 1
原创 Python机器学习--聚类算法--K-means(K-均值)算法
K-means算法的类型与介绍K- means算法的类型无监督学习的聚类算法;聚类算法是无监督的一种算法、K-means是一种聚类算法;K-means算法的介绍K-means算法的定义所谓聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能的高,而不同子集的元素相似度尽可能的低。其中每个子集叫做一个簇。聚类目的:类内相似、类间相异聚类算法与分类算法不同,分类是示例式学习,要求分类前明确各个类别,并
2021-08-31 13:30:43 1604
原创 Python机器学习--分类\回归算法--KNN(K最近邻)算法
KNN算法介绍与类型K最近邻(K-Nearest Neighbors,KNN)算法是一种基本的分类和回归算法【有监督学习】,也是最简单易懂的机器学习算法,没有之一。1968年由Cover和Hart提出,应用场景有字符识别、文本分类、图像识别等领域。算法的思想: 一个样本与数据集中的k个样本最相似, 如果这k个样本中的大多数属于某一个类别, 则该样本也属于这个类别。KNN算法的原理1.计算测试样本与训练集中所有样本之间的相似度(使用距离表征相似度.)2.按照距离递增排序3.选择与测
2021-08-31 00:22:19 1865
原创 机器学习基础
1、理解人工智能、机器学习、深度学习的关系 机器学习是实现人工智能的一种途径 深度学习属于机器学习、可以使AI更快的落地2、认识特征和标签 数据集1:有特征有标签 ======>有监督学习 数据集2:有特征无标签 ======>无监督学习半监督学习:再有监督学习和无监督学习之间,数据只有一少部分有标签3、机器学习算法分类 红色既可以做分类算法 也可以做回归算法...
2021-08-27 13:16:10 106 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人