自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 【机器学习】常用算法特点总结

算法名称适用的问题损失函数学习策略参数求解 / 调参方法线性回归回归问题感知机分类问题逻辑回归决策树(ID3)决策树(C4.5)决策树(CART)支持向量机朴素贝叶斯KmeansK近邻Adaboost神经网络EM算法...

2021-02-15 20:56:08 318

原创 【Python】axis用法详解

假设我们定义了一个维度为 dim=[n1,n2,n3]dim=[n_1, n_2, n_3]dim=[n1​,n2​,n3​] 的数组,那么 axisaxisaxis 取值范围就是 [0,1,2][0, 1, 2][0,1,2],也就是说对于一个任意的python数组(包括 ndarray 和 pd.DataFrame ),其 axisaxisaxis 取值范围是 [0,len(dim)][0, len(dim)][0,len(dim)],依次对应从左到右的下标:当我们对数组进行操作时指定 axis=i

2021-01-28 21:55:01 1739

原创 【pandas】loc与iloc函数区别及用法详解

共同点两者都接收两个参数区别loc函数接收的是行/列的名称,iloc函数接收的是行/列的下标loc函数在切片时是按闭区间切片的,也就是区间两边都能取到,iloc函数则是按传统的左闭右开的方式切片的图解:具体用法loc函数A single label, e.g. 5 or 'a', (note that 5 is| interpreted as a label of the index, and never as an| integer position along the

2021-01-15 18:02:17 3490

原创 动态规划状态压缩详解

比较简单的状态压缩状态定义:dp[i][j]表示从数组的 [0, i] 这个子区间内挑选一些正整数,每个数只能用一次,使得这些数的和恰好等于 j。状态转移方程:很多时候,状态转移方程思考的角度是「分类讨论」,对于「0-1 背包问题」而言就是「当前考虑到的数字选与不选」。不选择 nums[i],如果在 [0, i - 1] 这个子区间内已经有一部分元素,使得它们的和为 j ,那么 dp[i][j] = true;选择 nums[i],如果在 [0, i - 1] 这个子区间内就得找到一部分元素,使.

2020-12-20 14:08:45 1129 4

原创 【机器学习】Adaboost多类分类——SAMME算法,SAMME.R算法

前言根据Adaboost算法更新权重的原理我们知道想要在下一轮训练中使误分类的样本的权重增加,每一轮训练的错误率都必须小于0.5,包括初始化分类器时也是如此。初始化一般都是随机初始化,对于二分类任务,每个样本都有0.5的概率被预测正确,要达到0.5以上的正确率还是比较容易的,但是对于多分类问题就不一样了,在多分类问题中如果有KKK个不同的类别,那么随机猜测只有 1/K1/K1/K 的概率预测正确,因此若直接将Adaboost算法应用于多类分类问题并不能得到令人满意的结果。针对这个问题,Zhu Ji等人在2

2020-12-14 15:26:18 10359 6

原创 【MySQL】存储过程、触发器、视图

存储过程什么是存储过程简单来说,存储过程就是为以后的使用而保存的一条或多条MySQL语句的集合,它可以完成特定的功能,经过编译之后存储在数据库中,在需要时直接调用,就像脚本语⾔中函数定义⼀样。大多数SQL语句都是针对一个或多个表的单条语句。并非所有操作都这么简单,经常会有一个完整的操作需要多条语句才能完成,例如为了处理订单,需要核对以保证库存中有相应的物品;如果库存有物品,需要预定以便不将它们再卖给别的人,并减少可用的物品数量以反映正确的库存量;如果库存中没有相应物品,则需要与供应商进行某种交互。执

2020-12-09 00:13:24 117

原创 【MySQL】数据库导入导出及授权

导出数据数据库数据导出# 不要进入mysql,然后输⼊以下命令mysqldump -u root -p 数据库名 > 导出路径该命令将导出一个库中所有数据,会形成一个由建表语句和添加语句组成的sql文件,之后可以用这个sql文件将数据导入到别的库,或者在本地创建或恢复这些数据将数据库中的表导出# 不要进入mysql,然后输入以下命令mysqldump -u root -p 数据库名 数据表名 > 导出路径导入数据把导出的sql文件数据导入到mysql数据库中:# 在新的数

2020-12-07 15:21:31 234

原创 P-R曲线绘制原理及代码实现

简介P-R曲线,是指以查准率(亦称准确率)为纵轴、查全率(亦称召回率)为横轴画出的曲线,反映了查准率随查全率的变化趋势,在机器学习中常用于二分类模型的评价及选择。相关概念混淆矩阵实际为负实际为正预测为负TNFP预测为正FNTP查准率(亦称准确率)precision=TPTP+FPprecision = \frac{TP}{TP+FP}precision=TP+FPTP​查全率(亦称召回率)recall=TPTP+FNrecall = \frac{TP}

2020-12-05 22:10:46 8796 1

原创 【Python】装饰器用法详解(附代码)

作用在不改变原有函数代码,且保持原函数调用方法不变的情况下,给原函数增加新的功能(或者给类增加属性和方法)核心思想:用一个函数(或者类)去装饰一个旧函数(或者类),造出一个新函数(或者新类)应用场景:引入日志,函数执行时间的统计,执行函数前的准备工作,执行函数后的处理工作,权限校验,缓存等语法规则:在原有的函数上加上 @符,装饰器会把下面的函数当作参数传递到装饰器中,@符又被成为 语法糖# 1。 装饰器的原型### 利用闭包,把函数当作参数传递,并且在函数内去调用传递进来的函数,并返回一个函数

2020-11-18 16:56:50 222

原创 【Python】设计模式和抽象类

设计模式定义设计模式是前人为完成某个功能或需求,根据经验对实现的代码步骤和代码设计进行了总结和归纳,成为了实现某个需求的经典模式。设计模式并不是固定的代码格式,而是一种面向对象编程的设计思想。分类单态设计模式即在当前脚本中,同一个类只能创建出一个对象去使用示例:class Demo: # 对象存储器,默认为None __obj = None def __new__(cls, *args, **kwargs): # 在创建对象时,判断是否有对象

2020-11-17 16:56:51 190 2

原创 【Python】类方法、魔术方法、描述符

类方法的分类对象方法特征:在类中定义的方法,含有self参数只能使用对象进行调用该方法会把调用的对象传递进来类方法特征:在类中定义的方法,使用装饰器 @classmethod 进行了装饰方法中有cls这个行参。不需要实例化对象,直接使用类进行调用会把调用这个方法的类传递进来绑定类方法特征:在类中定义的方法只能使用类进行调用不会传递对象或者类进来静态方法特征:在类中定义的方法,使用了 装饰器 @staticmethod进行了装饰可以使用对象或者类进行调用不

2020-11-17 16:43:59 97

原创 【机器学习】Xgboost的使用及参数详解

Xgboost的原生库#mermaid-svg-2QkQMijIkIAMOWxw .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-2QkQMijIkIAMOWxw .label text{fill:#333}#mermaid-svg-2QkQMijIkIAMOWxw .node rect,#mermaid-sv

2020-11-16 15:58:46 21067 3

原创 【机器学习】关联规则及python实现

简介关联规则是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣的度量来识别数据库中的强规则。数学定义:假设I={I1,I2,…,Im}{\displaystyle I=\{I_{1},I_{2},\ldots ,I_{m}\}}I={I1​,I2​,…,Im​}是项的集合。给定一个交易数据库D={t1,t2,…,tn}{\displaystyle D=\{t_{1},t_{2},\ldots ,t_{n}\}}D={t1​,t2​,…,tn​},其中每个事务(Transactio

2020-11-12 20:49:11 1396

原创 【Python】简明集合运算

这里写目录标题一个集合内部的操作添加元素删除元素计算元素个数清空集合判断某个元素是否在集合中多个集合之间的操作求并集求交集求差集判断两个集合是否相交判断集合是否为子集求对称差集一个集合内部的操作添加元素add参数是单个元素示例:s = {'a', 'b', 'c'}s.add('x')print(s)s.add('x')print(s)输出:update参数可以是列表,元组,字典;注意参数是字典时只向集合中添加该字典的键值示例:s = {'a', 'b', 'c'}

2020-10-15 18:03:24 110

原创 【MySQL】InnoDB和MyISAM引擎的区别

对事务的支持InnoDB:支持MyISAM:不支持

2020-09-30 19:52:29 107

原创 【MySQL】什么是事务?Mysql事务详解

定义事务是由一系列对数据的访问与更新操作组成的程序执行逻辑单元特性(ACID)A: Atomicity, 原子性:事务是最小的操作序列单元,一个事务中包含的所有操作在一次执行后要么全部操作成功,要么全部操作失败,也就是说如果事务执行过程中出错,那么就会回滚到事务开始前的状态C: Consistency, 一致性:指事务的执行不能破坏数据库数据的完整性和一致性,例如A向B转账,如果事务中只给B的账户增加了余额而A的余额不变,那么就破坏了数据的一致性I: Isolation, 隔离性:不同的事务并发

2020-09-23 11:45:21 797

原创 【MySQL】建表时charset参数设utf8和utf8mb4的区别

utf8编码方式表示一个字符需要1-4个字节,但常用的字符只需1-3个字符就可以表示了;而在MySQL中表示一个字符所用的最大字节长度会影响系统的存储和性能,所以utf8指的其实是utf8mb3,即用1-3个字节编码的编码方式;如果数据中有一些特殊字符(如emoji表情)那么请使用utf8mb4。另外你可以使用以下语句查询当前MySQL支持的字符集:show charset;...

2020-09-21 11:21:33 2131

原创 ROC曲线绘制原理详解

简介ROC曲线,全称为receiver operating characteristic curve,即接收者操作特征曲线,反映了真阳性率(TPR)随假阳性率(FPR)的变化趋势,在机器学习中常用于二分类模型的评价及选择。

2020-09-18 21:44:35 4189

原创 python添加了镜像源下载依然报错Time out

镜像源不一定一直稳定,换个镜像源就可以了:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http://pypi.sdutlinux.org/豆瓣:http://pypi.douban.com/simp

2020-09-15 16:14:04 261

原创 【pandas】聚合函数agg的用法

作用在groupby分出的各组数据中求(多个)函数的值参数类型function, string, dictionary, or list of string/functions示例参数是functionimport pandas as pddata = pd.DataFrame([['0902', 89, 92, 88, 90], ['0903', 91, 95, 88, 98], ['0903', 84, 81

2020-09-09 21:39:15 3306 1

原创 【debug】ValueError: ‘s‘ is a bad directive in format ‘%Y/%m/%d %H:%M:%s‘

发生这个错误说明你使用了错误的格式。正确的可选格式如下:%A:返回星期的英文示例:from datetime import datetimetime_str = '2020/9/1 8:52:23'date = datetime.strptime(time_str, '%Y/%m/%d %H:%M:%S')print(date)%a返回星期的英文缩写%B返回月份的英文%b返回月份的英文缩写%c返回日期+时间的字符串%d返回当前时间是当月第几天%I以12小时制表示当前小时%H以2

2020-09-06 12:28:03 5960

原创 【Python】timedelta类详解

timedelta类表示时间差,可以直接实例化得到,也可以由两个datetime类型的数据做差得到导入from datetime import timedelta参数实例化timedelta类时参数依次是:days, seconds, microseconds, milliseconds, minutes, hours, weeks所以如果你想实例化1天零6个小时的时间差对象需要指明参数:td = timedelta(days=1, hours=6)print(td)输出:属性t

2020-08-30 23:57:43 13244

原创 【pandas】set_index函数详解

参数keys : 要设置为索引的列名(如有多个应放在一个列表里)drop : 将设置为索引的列删除,默认为Trueappend : 是否将新的索引追加到原索引后(即是否保留原索引),默认为Falseinplace : 是否在原DataFrame上修改,默认为Falseverify_integrity : 是否检查索引有无重复,默认为False示例参数keyskeys指定的列将被设置为索引import pandas as pddata = pd.DataFrame([['Alice'

2020-08-21 21:36:10 28964

原创 【pandas】reset_index函数详解

参数drop: 重新设置索引后是否将原索引作为新的一列并入DataFrame,默认为Falseinplace: 是否在原DataFrame上改动,默认为Falselevel: 仅从索引中删除给定级别,默认删除所有级别col_level: 如果列有多个级别,决定标签将插入哪个级别,默认插入第一级col_fill: 如果列有多个级别,决定其他级别如何命名示例import pandas as pdimport numpy as npdf = pd.DataFrame([('bird', 3

2020-08-19 12:18:00 42587 1

原创 boxplot 箱线图信息的正确打开方式

箱线图的外貌及对应的信息:其中:中位数: 数据按顺序排列后位于中间的数上四分位点:上界 =min(max(数据),)

2020-08-11 20:50:42 578

原创 【启动页劫持】Chrome浏览器点开是搜狗怎么修改

打开Chrome浏览器,点击右上角竖着的三个点:在下拉菜单中选择Settings,然后选择Appearance:往下滑就可以看到启动页被设置成了搜狗,只要点右边三个点,然后点remove就OK了!

2020-08-11 19:49:30 2442

原创 【debug】seaborn.load_dataset报错gaierror

load_dataset函数有两个参数:cache:布尔型,默认为True,此时会从本地获取数据文件,获取数据的地址由下面这个参数指定:data_home:字符串型,指定存储数据文件的位置,若为None则取默认路径,即C:\User\administrator\seaborn-data或C:\用户\administrator\seaborn-data,其中administrator是你的用户名,这个路径下就是load_dataset函数加载或存储数据的位置现在问题就很清楚了,如果你执行该函数报错,

2020-07-17 16:13:06 320 1

原创 【debug】读取xlwt生成的文件报错:codeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd0 in position 0

今天用xlwt写了一个excel表格,最后保存为csv文件:workbook.save('Titanic.csv')但是想从这个文件中读取数据的时候却出了问题:data = pd.read_csv('Titanic.csv', encoding='utf-8')print(data.head())检查了一下这个文件的编码格式,发现问题:import chardetcontent_xlsx = open('Titanic.xlsx', 'rb')content_csv = open('

2020-07-15 21:13:38 517

原创 【sklearn】GridSearchCV辅助Pipeline调参

实例波士顿房价的预测。数据集是统计的 20 世纪 70 年代中期波士顿郊区房价的中位数,来源即sklearn.dataset.load_boston()。该例分析流程:生成特征多项式、数据归一化、构建岭回归模型,并将这三步封装到Pipeline中用 GridSearchCV,对 Pipeline中 PolynomialFeatures的 degree参数和岭回归模型的alpha参数进行调优用训练集进行模型拟合用训练好的模型对测试集的预测准确度进行评估,评估指标采用R2_score通过上面对

2020-07-10 16:43:45 729

原创 【MySQL】MYSQL索引详解

定义索引是帮助mysql高效获取数据的一种数据结构分类主键索引对值的要求:唯一非空可在建表时同时创建也可以后续添加:alter table table_name modify new_id int primary key auto_increment;删除时注意需要先取消自增:alter table table_name modify new_id int;alter table table_name drop primary key;唯一索引对值的要求:允许空字段,空

2020-07-07 21:27:22 180

原创 MySQL必知必会 笔记

DBMS可分为两类:一类为基于共享文件系统的DBMS,另一类为基于客户机 — 服务器的DBMS。前者(包括诸如Microsoft Access和FileMaker)用于桌面用途,通常不用于高端或更关键的应用。MySQL、Oracle以及Microsoft SQL Server等数据库是基于客户机—服务器的数据库。客户机—服务器应用分为两个不同的部分。服务器部分是负责所有数据访问和处理的一个软件。这个软件运行在称为数据库服务器的计算机上。MySQL语句中各关键字的顺序:ORDER BY子句必须是SEL.

2020-07-05 19:45:44 99

原创 【debug】json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

最近爬取某网站时需要将响应的数据转为json格式,由于response对象有json()方法我就直接调用了:html = requests.get(url, headers=headers, params=para)html.content.decode('utf-8')return html.json()['data']一开始跑代码没有问题,但后来抛出了以下错误:将html的文本及其类型输出后可以看到它的内容如下:可以看到它里面是一个字典,外面套了一个test();,把它去掉后再转为j

2020-06-18 21:46:54 447

原创 BeautifulSoup选择器语法

本博客所用示例html代码:<div id="content"> <h1>TITLE</h1> <div class="clear fix"> <div class="article"> <div class="indent"> <p class="ul first"></p> <table width="100%">

2020-06-17 23:52:09 234

原创 【Selenium】stale element reference: element is not attached to the page document

官方文档链接: link有两种情况会导致这种报错:元素被删除元素不再存在于DOM对象中其中第一种更常见,最常见的原因是元素所在的页面被刷新或重定向。解决方法就是删除代码中的time.sleep等代码,因为等待过程中页面可能被刷新。另一种原因是js将元素替换为另一个相同属性的元素,这时就需要重新查找元素。...

2020-06-16 11:14:57 775

原创 lxml选择器语法

本周学习了爬虫两个常用库:lxml 和 BeautifulSouplxml的使用from lxml import etreeimport requests# 读取html⽹⻚信息content = requests.get(url).text# 解析HTML⽂档,返回根节点对象html = etree.HTML(content)# 获取⽹⻚中所有标签并遍历输出标签名result = html.xpath("选择器")其中xpath选择器的写法如下:BeautifulSou

2020-06-11 12:03:05 281

原创 将两个字符串或二进制序列做按位与操作

有时在设计算法时我们需要将字母转为二进制然后进行操作。比较简单的方法是将字母转为ASCII码再做与或非的操作:a = 'qwerty'b = 'asdfgh'tmp = []# 输出两个字符串按位做与操作后的二进制序列for i in range(len(a)): tmp.append(bin(ord(a[i]) & ord(b[i])).replace('0b', ''))res = ''.join(tmp)print(res)# 输出两个字符串按位做与操作后形成的新字

2020-06-02 21:58:34 896

原创 HTML+CSS网页编程

HTML中引⼊CSS的⽅式:(1) 内联⽅式<tag style="attr: val; attr: val..."></html>(2) 内部⽅式<head> <style> tag {attr: val; attr: val...} </style></head>(3) 外部导⼊⽅式<link type="text/css" href="css文件路径">3.2 还可以使⽤import在st

2020-05-18 17:11:46 89

原创 【Python】删除文件最后一行

法一思路:打开文件后逐行读取同时记录指针位置,由于读取完一行后指针位于行尾,所以在读取完最后一行后需要将指针移到上一行末尾然后调用f.truncate()。为存储倒数第二行末尾的位置,我们需要一个1 ×\times× 2的数组存储文件指针位置:# 打开文件,由于只有二进制模式才支持移动指针操作,所以第二个参数要有'b'。f = open('test.txt', 'rb+')line = ...

2020-05-08 13:22:26 2752 2

原创 【Python】Pycharm配置IdeaVIM

到官网 link 下载IdeaVIM到任意位置并解压,然后:Created with Raphaël 2.2.0开始打开pycharm点File点Settings点Plugins点下图中图标点Install Plugin from Disk找到刚才解压出来的jar文件完工...

2020-02-04 11:43:08 476

原创 【Python】一劳永逸地设置pip下载镜像源

【Python】一劳永逸地设置pip下载镜像源在C:/Users目录下有一个文件夹是以你的用户名命名的文件夹,在里面新建一个文件夹命名为pip 然后在这个文件夹里新建一个txt文件 内容如下:[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host=mirrors.aliyun.c...

2020-02-03 20:30:27 625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除