自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 sql中的窗口函数

sql中的常用窗口函数

2022-07-14 14:39:27 2569

原创 python3中出现TypeError: a bytes-like object is required, not ‘str‘

问题分析该问题主要是由于当前操作的字符串是bytes类型的字符串对象,并对该bytes类型的字符串对象进行按照str类型的操作。当对此数据进行str类型的操作,比如上面的split时,会弹出以上错误提示。因为split函数传入的参数时str类型的字符串,而当前的为bytes编码类型的字符串对象。解决方法网络查找的解决方法:将s转化为str类型或者是将对s进行str类型操作转化为对bytes类型的操作。方法1:bytes–>str方法2:对s进行str类型操作转化为对bytes类型的操

2022-07-14 10:59:48 6572

原创 设置ssh免密登录出现问题:/usr/bin/ssh-copy-id: ERROR: ssh: connect to host : Connection timed out

服务器实现免密登录出现ERROR,无法连接

2022-07-10 21:11:04 6881 2

原创 pycharm中运行jupyter出现run error

pycharm运行jupyter出现run error错误

2022-07-09 22:37:57 1842

原创 机器学习之PCA

PCA与SVD1、特征选择方法2、面试高危问题3、降维实现3.1 sklearn中的库迷你案例(1)调用库和模块(2)提取数据集(3)建模(4)可视化(5)探索降维后的数据3.2 PCA与SVD原理在降维过程中,我们会减少特征的数量,这意味着删除数据,数据量变少则表示模型可以获取的信息会变少,模型的表现可能会因此受到影响。同时,在高维数据中,必然有一些特征是不带有有效的信息的,比如噪声,还有一些特征带有的信息和其他一些特征是重复的(比如一些特征可能会线性相关)。我们希望能够找出一种方法,可以帮助我们衡量

2021-12-10 11:16:35 2798

原创 SGDClassifier中TypeError: __init__() got an unexpected keyword argument ‘n_iter‘

TypeError: init() got an unexpected keyword argument ‘n_iter’scikit-learn官网中介绍:想要一个适合大规模的线性分类器,又不打算复制一个密集的行优先存储双精度numpy数组作为输入,那么建议使用SGDClassifier类作为替代。该分类器中的参数n_iter 在新版本中变成了n_iter_no_change#参数class sklearn.linear_model.SGDClassifier(loss='hinge', *,

2021-12-09 10:59:53 2274

原创 python3使用pickle.load出现UnicodeDecodeError的解决办法

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。python2使用的是cPickle模块,而在python3中cPickle已经被取消,使用python2的如下方式:import cPickledata = cPickle.load(open('imdb_features.p'))这种方式是可以正常读取文件的。但是当换

2021-12-08 19:24:52 2811 1

原创 python中报错TypeError: ‘bool‘ object is not callable

python中出现TypeError: ‘bool’ object is not callable的错误,应该如何解决呢???首先看一下我在写代码时出现的错误提示:这里pd.dataframe()为一个空的dataframe,if条件判断语句中,是判断dataframe是否为空,其返回true或false。我的代码里是返回true,会执行if下面的语句。...

2021-11-26 21:00:49 24821 1

原创 numpy中计算数组之间的欧式距离

如何利用python计算两个数组之间的距离呢?我们可以有以下两种计算方式:第一种方式vec1和vec2是两个numpy向量,欧式距离计算如下:import numpy as npdist = np.sqrt(np.sum(np.square(vec1 - vec2)))其中np.sqrt():计算平方根np.square():返回一个新数组,该数组的元素值为源数组元素的平方,源阵列保持不变。第二种方式dist = np.linalg.norm(vec1 - vec2)np.lin

2021-11-22 16:17:11 15770

原创 主动学习(Active Learning)

主动学习1、定义2、步骤3、分类3.1 Membership Query Synthesis3.2 Stream-Based Selective Sampling3.3 Pool-Based Sampling4、Query Strategy Frameworks4.1 Uncertainty Sampling4.1.1 least confident4.1.2 Margin Sampling4.1.3 Entropy4.2 Query-By-Committee4.2.1 Vote Entropy(投票熵)

2021-11-17 15:46:13 3000

原创 词袋模型与TF-IDF模型

词袋模型与TF-IDF1、词袋模型2、TF-IDF2.1特征提取方法有两大主要方式,一种是词袋模型,还有一种就是TF-IDF 模型(term frequency-inverse document frequency,词频与逆向文件频率)1、词袋模型文本特征提取有两个非常重要的模型词集模型:单词构成的集合,集合自然每个元素只能有一个,也就是词集中的每个单词都只有一个**词袋模型:**在词集的基础上,如果一个单词在文档中出现不止一次,统计其出现的次数。2、TF-IDF2.1...

2021-11-11 15:45:54 5870

原创 Dataframe中添加一列

在指定位置添加一列值加载数据添加新列直接使用insert添加加载数据首先,我们需要先将需要的数据加载进来,这里使用了一个比较复杂的数据,总共是15列import pandas as pdimport numpy as npdata = pd.read_csv('train.csv')显示数据,及行,列值,使用shape添加新列columns = data.columns.tolist()columns.insert(0,'add')data = data.reindex(colum

2021-11-04 21:36:28 12678

原创 python字典转化为元组

给定一个字典:dic = {7: [1,2,3],8: [4,5,6], 9: [10,11]}下面我们的目的是要把此字典的键值对转化为元组,并放进list中my_list = list(zip(dic.keys(),dic.values()))print(my_list)输出结果为:显然这不是我们想要的,我想让(7,1),(7,2)…这样的元组放进列表里,而上面的结果是把整个字典的列表值放进元组,下面正确示范,没找到不用循环的好方法:my_list = []for key,val

2021-10-28 20:20:01 10164

原创 TypeError: Population must be a sequence. For dicts or sets, use sorted(d).

错误提示错误原因random.sample()里面没有使用list,而是set,所以只要我们做一个列表转换就可以成功解决错误 for i in range(d.dataframe.shape[1]): random_sample = random.sample(list(feature_list[i]),20) print(random_sample,len(random_sample))...

2021-10-28 19:03:32 18456 5

原创 偏差和方差

文章目录符号定义学习算法的期望预测方差定义偏差定义符号定义在这里插入图片描述学习算法的期望预测方差定义使用样本数相同的不同训练集产生的 方差 为:方差含义:同样大小的训练集变动导致的学习性能的变化,刻画了数据扰动的影响偏差定义期望输出与真实标记的差别称为 偏差(bias) ,即:偏差含义:偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合程度。...

2021-10-21 16:37:28 201

原创 latex特殊符号用法

标号添加实心原点\begin{itemize} \item [$\bullet$] \end{itemize}添加数字标号\begin{itemize} \item [1)] \end{itemize}特殊字符加减±\pm希腊字符上下标常用数学符号定界符二元关系符| || |符号 |latex | |符号 |latex | |符号 |latex | |符号 |latex |符号latex<<>&g

2021-10-21 15:47:57 1753 2

原创 numpy中reshape的用法

reshape函数一般用法特殊用法示例一般用法numpy.arange(n).reshape(a, b); 依次生成n个自然数,并且以a行b列的数组形式显示import numpynumpy.arange(24).reshape(3, 8)特殊用法mat (or array).reshape(c, -1); 必须是矩阵格式或者数组格式,才能使用 .reshape(c, -1) 函数, 表示将此矩阵或者数组重组,以 c行d列的形式表示-1的作用就在此,自动计算d:d=数组或者矩阵里面所有的

2021-10-13 21:50:57 757

原创 list列表转化为csv文件

列表转化为csv对列表进行转化报错信息使用pandas对列表进行转化list1 = [1,2,3,5,7,5]list1.to_csv("list.csv")这里建立一个简单的列表,并使用to_csv试图将其转化为csv文件,但是事实是这样做是不对的,会出现报错。报错信息报错信息如下:显示list没有to_csv属性,下面讲解正确的使用方法。使用pandas正确的使用方法应该是使用pandas的to_csv属性,将列表转化为csv文件。import pandas as pdlis

2021-10-10 18:20:59 9153

原创 解决AttributeError: ‘DataFrame‘ object has no attribute ‘ix‘

关于ix属性错误问题问题描述原因解决方法问题描述代码:X_train, Y_train = train.ix[:, :-1], train.ix[:, -1]这里train是一个dataframe类型的数据运行出现提示:提示属性错误:dataframe没有属性ix原因经过多方搜索查证后,是因为pandas1.0.0版本后,已经对该函数进行了重构解决方法只需要将ix属性改为iloc即可 X_train, Y_train = train.iloc[:, :-1], train.iloc

2021-10-09 15:05:25 3545

原创 朴素贝叶斯中的TF-IDF值

TF-IDF值什么是TF-IDF值TF-IDF如何计算什么是TF-IDF值TF-IDF是一个统计方法,用来评估某个词语对于一个文件集或者文档库中的其中一份文件的重要程度。TF-IDF实际上是Term Frequency和Inverse Document Frequency的总称,二者缩写为TF和IDF,分别代表了词频和逆向文档频率。词频TF计算了一个单词在文档中出现的次数,它认为一个单词的重要性和它在文档中出现的次数成正比。逆向文档频率IDF,是指 一个单词在文档中的区分度。他认为一个单词出现在的

2021-09-28 21:05:52 1579

原创 pandas数据分析之缺失值处理

缺失值处理1、查看是否有缺失值2、选择删除行3、选择删除列4、使用字符串代替缺失值5、前一个数据代替6、后一个数据代替7、平均值代替当数据中存在缺失值时,可以用其他数值代替缺失值,这里主要用到了Dataframe.fillna()方法。具体的用法如下1、查看是否有缺失值首先加载数据,并进行显示数据透视表:import pandas as pddata = pd.read_csv("dirty_beer_last.csv")data1 = pd.pivot_table(data,values=[

2021-09-28 19:28:34 4020

原创 设置plt正确显示中文

plt.rcParams['font.sans-serif'] = ['SimHei']使用以上代码可以让解决plt显示中文乱码问题

2021-09-27 18:58:12 27779

原创 机器学习之决策树ID3算法

机器学习之ID3算法1、信息熵2、ID3算法1、信息熵首先我们来介绍一下信息熵(entropy)的概念,它表示了信息的不确定度。在信息论中,随机离散时间出现的概率存在着不确定性,为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式:p(i|t) 代表了节点 t 为分类 i 的概率,其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的,而是说存在一种度量,它能帮我们反映出来这个信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高

2021-09-27 09:57:28 1624

原创 SQL中row_number函数用法

row_number函数用法1、函数讲解2、LeetCode实战1、函数讲解语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说,row_number()从1开始,为每条分组记录返回一个数字,举例:ROW_NUMBER() OVER(ORDER BY xlh DESC)这里的用法是先将xlh列进行降序排序,再将降序后的每条记录返回一个序号。row_number() OVER (PARTITION BY COL1 ORDE

2021-09-26 15:41:55 55573 2

原创 机器学习之集成学习

集成学习算法Bagging随机森林(random forest)boostingstackingBaggingbagging也叫作booststrap aggregating, 是在原始数据集选择s次后得到s个新数据集的一种技术,是一种有放回抽样。bagging在分类任务比较简单的时候,集成后可能效果会变差,也可能会变好。一般如果分类比较复杂,比如人脸识别分类,使用集成学习后会比使用前的效果稍微好一点。随机森林(random forest)算法流程:1、样本的随机:从样本集中用bagging

2021-09-25 14:08:58 213

原创 SQL四大排名函数和关键字

SQL排序函数1、row_number()2、rank()3、dense_rank()4、ntile()5、LeetCode实战1、row_number()row_number()在排名是序号,连续,不重复,即使遇到表中的两个一样的数值也是一样。select *, row_number() OVER(order by number) as row_numfrom num结果如图:注意:在使用row_number()实现分页时需要注意一点,over子句中的order by 要与SQL排序记

2021-09-24 10:36:20 1092

原创 机器学习算法之Boosting

Boosting算法Boosting算法算法过程Adaboost算法Boosting算法Boosting也就提升算法,通过训练多个弱分类器,最后加权组合成一个分类精度比较高的强学习者。正所谓“三个臭皮匠,顶个诸葛亮”。其中弱分类器一般是指一个分类器的分类结果仅仅比随机分类好一点点。算法过程1、对于训练集中的每个样本建立权值wi,表示对每个样本的关注度。当某个样本被误分类的概率很高时,需要加大对该样本的权值。2、进行迭代的过程中,每一步迭代都是一个弱分类器。我们需要用某种策略将其组合,作为最终模型。

2021-09-23 20:37:00 715

原创 numpy中字符编码

numpy字符编码这里首先先举一个例子:import numpy as nppersontype = np.dtype({ 'names':['name', 'age', 'chinese', 'math', 'english'], 'formats':['S32','i', 'i', 'i', 'f']})上面代码中,定义了一个结构数组persontype,实际上S32用的是numpy中的字符编码来表示数据类型的定义,比如i代表整数,f代表单精度浮点数,S代表字符串,S32代表

2021-09-23 09:42:15 875

原创 利用pandas进行数据清洗

Pandas进行数据清洗1、完整性1.1 缺失值1.2 空行2、全面性列数据的单位不统一3、合理性非ASCII字符4、唯一性4.1 一列有多个参数4.2 重复数据我们有下面的一个数据,利用其做简单的数据分析。这是一家服装店统计的会员数据。最上面的一行是列坐标,最左侧一列是行坐标。列坐标中,第 0 列代表的是序号,第 1 列代表的会员的姓名,第 2 列代表年龄,第 3 列代表体重,第 4~6 列代表男性会员的三围尺寸,第 7~9 列代表女性会员的三围尺寸。数据清洗规则总结为以下 4 个关键点,统一起来

2021-09-22 18:53:32 2281

原创 python数据分析实战之异常值处理

异常值处理1、异常值定义2、异常值处理方式3、实战1、异常值定义2、异常值处理方式3、实战

2021-09-18 15:26:08 18538 2

原创 pandas数据分析实战之apply函数应用

使用apply函数与字符匹配进行数据分析1、apply函数使用2、字符串匹配3、数据分析实战1、apply函数使用 DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwdsfunc:代表的是传入的函数或lambda表达式;axis:可提供的参数有两个,该参数默认为0(即列值) 0或者index,表示函数处理的是每一列; 1或columns,表示处理的是每一行;raw

2021-09-17 19:46:03 2595

原创 使用SQL方式打开Pandas

SQL方式打开pandaspandasqllambda匿名函数pandas的数据类型可以让我们像处理数据表一样进行操作,比如数据表的增删改查,都是可以使用pandas工具来完成。不过由于pandas的函数及其相应的方法太多,很多时候我们很难记住,大多数情况下,需要去查询相应的文档。相比之下,可能对于SQL还是更加熟练,用SQL对数据表进行操作是最方便的。pandasql在python里可以直接使用sql语句来操作pandas工具:pandasqlpandasql中的主要函数是sqldf,它接收两

2021-09-16 13:49:53 403

原创 pandas数据表合并

数据表合并1、基于指定列进行连接2、inner内连接3、left左连接4、right右连接5、outer外连接首先,创建两个DataFrame:df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})df2 = DataFrame({'name':['ZhangFei', 'GuanYu', 'A', 'B', 'C'], 'data2':range(5)})1、基于指定列进行连接比如我们

2021-09-15 21:12:05 2499

原创 pandas数据分析实战之去除重复值

Pandas指定行进行去重更新值加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据首先,我们需要加载到所需要的数据,这里我们所需要的数据是同过sample函数采样过来的。import pandas as pd #这里说明一下,clean_beer.csv数据有两千多行数据#所以从其中采样一部分,来进行演示,当然可以简单实用data.head()也可以做练习data = pd.read_csv('clean_beer

2021-09-15 13:04:32 6406 2

原创 pandas进行字符匹配,并进行相应值显示

pandas字符匹配读取数据匹配字符串显示单元格实际值重置索引读取数据在进行字符匹配前,首先我们需要读取相应的数据,使用的是pd.read_csv(‘这里填写相应的文件路径’)import pandas as pd import numpy as np data = pd.read_csv('../datasets/Soccer.csv')#head是显示文件的前五行数据data.head()显示数据为:匹配字符串下面对于属性‘birthplace’进行匹配,匹配以大写字母开头的出

2021-09-14 19:00:21 2302

原创 python基础知识之嵌套闭包和装饰器

python中嵌套、闭包和装饰器函数嵌套闭包装饰器函数嵌套我们可以在函数里定义函数,也就是函数的嵌套,形如下面这段代码:def func(message): def get_message(message): print("Got a message:{}".format(message)) return get_message(message)func('hello world')#outputGot a message:hello world这段代码中,我们在函数func()

2021-09-11 10:49:19 289

原创 python基础知识之对象比较和拷贝

python基础知识学习1、python对象的比较和拷贝1.1对象比较(== 和 is)1.2浅拷贝和深拷贝浅拷贝深拷贝2、值传递和引用传递2.1值传递2.2 引用传递1、python对象的比较和拷贝1.1对象比较(== 和 is)==:只是比较两个对象的值是否相等,如果相等则返回trueis:比较对象的值及其引用,也就是其地址对于整型数字来说,下面a is b为True的结论,只适用于-5到256a = 10b = 10a == boutput: Truea is boutput

2021-09-10 19:55:18 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除