sharon@zhang-CSDN博客

原创 sql中的窗口函数

sql中的常用窗口函数

2022-07-14 14:39:27 2569

原创 python3中出现TypeError: a bytes-like object is required, not ‘str‘

问题分析该问题主要是由于当前操作的字符串是bytes类型的字符串对象，并对该bytes类型的字符串对象进行按照str类型的操作。当对此数据进行str类型的操作，比如上面的split时，会弹出以上错误提示。因为split函数传入的参数时str类型的字符串，而当前的为bytes编码类型的字符串对象。解决方法网络查找的解决方法：将s转化为str类型或者是将对s进行str类型操作转化为对bytes类型的操作。方法1：bytes–>str方法2：对s进行str类型操作转化为对bytes类型的操

2022-07-14 10:59:48 6572

原创设置ssh免密登录出现问题：/usr/bin/ssh-copy-id: ERROR: ssh: connect to host : Connection timed out

服务器实现免密登录出现ERROR，无法连接

2022-07-10 21:11:04 6881 2

原创 pycharm中运行jupyter出现run error

pycharm运行jupyter出现run error错误

2022-07-09 22:37:57 1842

原创机器学习之PCA

PCA与SVD1、特征选择方法2、面试高危问题3、降维实现3.1 sklearn中的库迷你案例（1）调用库和模块(2)提取数据集(3)建模（4）可视化（5）探索降维后的数据3.2 PCA与SVD原理在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受到影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的，比如噪声，还有一些特征带有的信息和其他一些特征是重复的（比如一些特征可能会线性相关）。我们希望能够找出一种方法，可以帮助我们衡量

2021-12-10 11:16:35 2798

原创 SGDClassifier中TypeError: init() got an unexpected keyword argument ‘n_iter‘

TypeError: init() got an unexpected keyword argument ‘n_iter’scikit-learn官网中介绍：想要一个适合大规模的线性分类器，又不打算复制一个密集的行优先存储双精度numpy数组作为输入，那么建议使用SGDClassifier类作为替代。该分类器中的参数n_iter 在新版本中变成了n_iter_no_change#参数class sklearn.linear_model.SGDClassifier(loss='hinge', *,

2021-12-09 10:59:53 2274

原创 python3使用pickle.load出现UnicodeDecodeError的解决办法

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。python2使用的是cPickle模块，而在python3中cPickle已经被取消，使用python2的如下方式：import cPickledata = cPickle.load(open('imdb_features.p'))这种方式是可以正常读取文件的。但是当换

2021-12-08 19:24:52 2811 1

原创 python中报错TypeError: ‘bool‘ object is not callable

python中出现TypeError: ‘bool’ object is not callable的错误，应该如何解决呢？？？首先看一下我在写代码时出现的错误提示：这里pd.dataframe()为一个空的dataframe，if条件判断语句中，是判断dataframe是否为空，其返回true或false。我的代码里是返回true，会执行if下面的语句。...

2021-11-26 21:00:49 24821 1

原创 numpy中计算数组之间的欧式距离

如何利用python计算两个数组之间的距离呢？我们可以有以下两种计算方式：第一种方式vec1和vec2是两个numpy向量，欧式距离计算如下：import numpy as npdist = np.sqrt(np.sum(np.square(vec1 - vec2)))其中np.sqrt()：计算平方根np.square()：返回一个新数组，该数组的元素值为源数组元素的平方，源阵列保持不变。第二种方式dist = np.linalg.norm(vec1 - vec2)np.lin

2021-11-22 16:17:11 15770

原创主动学习（Active Learning）

主动学习1、定义2、步骤3、分类3.1 Membership Query Synthesis3.2 Stream-Based Selective Sampling3.3 Pool-Based Sampling4、Query Strategy Frameworks4.1 Uncertainty Sampling4.1.1 least confident4.1.2 Margin Sampling4.1.3 Entropy4.2 Query-By-Committee4.2.1 Vote Entropy（投票熵）

2021-11-17 15:46:13 3000

原创词袋模型与TF-IDF模型

词袋模型与TF-IDF1、词袋模型2、TF-IDF2.1特征提取方法有两大主要方式，一种是词袋模型，还有一种就是TF-IDF 模型（term frequency-inverse document frequency,词频与逆向文件频率）1、词袋模型文本特征提取有两个非常重要的模型词集模型：单词构成的集合，集合自然每个元素只能有一个，也就是词集中的每个单词都只有一个**词袋模型：**在词集的基础上，如果一个单词在文档中出现不止一次，统计其出现的次数。2、TF-IDF2.1...

2021-11-11 15:45:54 5870

原创 Dataframe中添加一列

在指定位置添加一列值加载数据添加新列直接使用insert添加加载数据首先，我们需要先将需要的数据加载进来，这里使用了一个比较复杂的数据，总共是15列import pandas as pdimport numpy as npdata = pd.read_csv('train.csv')显示数据，及行，列值，使用shape添加新列columns = data.columns.tolist()columns.insert(0,'add')data = data.reindex(colum

2021-11-04 21:36:28 12678

原创 python字典转化为元组

给定一个字典：dic = {7: [1,2,3],8: [4,5,6], 9: [10,11]}下面我们的目的是要把此字典的键值对转化为元组,并放进list中my_list = list(zip(dic.keys(),dic.values()))print(my_list)输出结果为：显然这不是我们想要的，我想让（7,1），（7,2）…这样的元组放进列表里，而上面的结果是把整个字典的列表值放进元组，下面正确示范，没找到不用循环的好方法：my_list = []for key,val

2021-10-28 20:20:01 10164

原创 TypeError: Population must be a sequence. For dicts or sets, use sorted(d).

错误提示错误原因random.sample（）里面没有使用list，而是set，所以只要我们做一个列表转换就可以成功解决错误 for i in range(d.dataframe.shape[1]): random_sample = random.sample(list(feature_list[i]),20) print(random_sample,len(random_sample))...

2021-10-28 19:03:32 18456 5

原创偏差和方差

文章目录符号定义学习算法的期望预测方差定义偏差定义符号定义在这里插入图片描述学习算法的期望预测方差定义使用样本数相同的不同训练集产生的方差为：方差含义：同样大小的训练集变动导致的学习性能的变化，刻画了数据扰动的影响偏差定义期望输出与真实标记的差别称为偏差（bias），即：偏差含义：偏差度量了学习算法的期望预测和真实结果的偏离程度，刻画了学习算法本身的拟合程度。...

2021-10-21 16:37:28 201

原创 latex特殊符号用法

标号添加实心原点\begin{itemize} \item [$\bullet$] \end{itemize}添加数字标号\begin{itemize} \item [1)] \end{itemize}特殊字符加减±\pm希腊字符上下标常用数学符号定界符二元关系符| || |符号 |latex | |符号 |latex | |符号 |latex | |符号 |latex |符号latex<<>&g

2021-10-21 15:47:57 1753 2

原创 numpy中reshape的用法

reshape函数一般用法特殊用法示例一般用法numpy.arange(n).reshape(a, b); 依次生成n个自然数，并且以a行b列的数组形式显示import numpynumpy.arange(24).reshape(3, 8)特殊用法mat (or array).reshape(c, -1); 必须是矩阵格式或者数组格式，才能使用 .reshape(c, -1) 函数，表示将此矩阵或者数组重组，以 c行d列的形式表示-1的作用就在此，自动计算d：d=数组或者矩阵里面所有的

2021-10-13 21:50:57 757

原创 list列表转化为csv文件

列表转化为csv对列表进行转化报错信息使用pandas对列表进行转化list1 = [1,2,3,5,7,5]list1.to_csv("list.csv")这里建立一个简单的列表，并使用to_csv试图将其转化为csv文件，但是事实是这样做是不对的，会出现报错。报错信息报错信息如下：显示list没有to_csv属性，下面讲解正确的使用方法。使用pandas正确的使用方法应该是使用pandas的to_csv属性，将列表转化为csv文件。import pandas as pdlis

2021-10-10 18:20:59 9153

原创解决AttributeError: ‘DataFrame‘ object has no attribute ‘ix‘

关于ix属性错误问题问题描述原因解决方法问题描述代码：X_train, Y_train = train.ix[:, :-1], train.ix[:, -1]这里train是一个dataframe类型的数据运行出现提示：提示属性错误：dataframe没有属性ix原因经过多方搜索查证后，是因为pandas1.0.0版本后，已经对该函数进行了重构解决方法只需要将ix属性改为iloc即可 X_train, Y_train = train.iloc[:, :-1], train.iloc

2021-10-09 15:05:25 3545

原创朴素贝叶斯中的TF-IDF值

TF-IDF值什么是TF-IDF值TF-IDF如何计算什么是TF-IDF值TF-IDF是一个统计方法，用来评估某个词语对于一个文件集或者文档库中的其中一份文件的重要程度。TF-IDF实际上是Term Frequency和Inverse Document Frequency的总称，二者缩写为TF和IDF，分别代表了词频和逆向文档频率。词频TF计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数成正比。逆向文档频率IDF，是指一个单词在文档中的区分度。他认为一个单词出现在的

2021-09-28 21:05:52 1579

原创 pandas数据分析之缺失值处理

缺失值处理1、查看是否有缺失值2、选择删除行3、选择删除列4、使用字符串代替缺失值5、前一个数据代替6、后一个数据代替7、平均值代替当数据中存在缺失值时，可以用其他数值代替缺失值，这里主要用到了Dataframe.fillna()方法。具体的用法如下1、查看是否有缺失值首先加载数据，并进行显示数据透视表：import pandas as pddata = pd.read_csv("dirty_beer_last.csv")data1 = pd.pivot_table(data,values=[

2021-09-28 19:28:34 4020

原创设置plt正确显示中文

plt.rcParams['font.sans-serif'] = ['SimHei']使用以上代码可以让解决plt显示中文乱码问题

2021-09-27 18:58:12 27779

原创机器学习之决策树ID3算法

机器学习之ID3算法1、信息熵2、ID3算法1、信息熵首先我们来介绍一下信息熵（entropy）的概念，它表示了信息的不确定度。在信息论中，随机离散时间出现的概率存在着不确定性，为了衡量这种信息的不确定性，信息学之父香农引入了信息熵的概念，并给出了计算信息熵的数学公式：p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高

2021-09-27 09:57:28 1624

原创 SQL中row_number函数用法

row_number函数用法1、函数讲解2、LeetCode实战1、函数讲解语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说，row_number()从1开始，为每条分组记录返回一个数字，举例：ROW_NUMBER() OVER(ORDER BY xlh DESC)这里的用法是先将xlh列进行降序排序，再将降序后的每条记录返回一个序号。row_number() OVER (PARTITION BY COL1 ORDE

2021-09-26 15:41:55 55573 2

原创机器学习之集成学习

集成学习算法Bagging随机森林（random forest）boostingstackingBaggingbagging也叫作booststrap aggregating，是在原始数据集选择s次后得到s个新数据集的一种技术，是一种有放回抽样。bagging在分类任务比较简单的时候，集成后可能效果会变差，也可能会变好。一般如果分类比较复杂，比如人脸识别分类，使用集成学习后会比使用前的效果稍微好一点。随机森林（random forest）算法流程：1、样本的随机：从样本集中用bagging

2021-09-25 14:08:58 213

原创 SQL四大排名函数和关键字

SQL排序函数1、row_number()2、rank()3、dense_rank()4、ntile()5、LeetCode实战1、row_number()row_number()在排名是序号，连续，不重复，即使遇到表中的两个一样的数值也是一样。select *, row_number() OVER(order by number) as row_numfrom num结果如图：注意：在使用row_number()实现分页时需要注意一点，over子句中的order by 要与SQL排序记

2021-09-24 10:36:20 1092

原创机器学习算法之Boosting

Boosting算法Boosting算法算法过程Adaboost算法Boosting算法Boosting也就提升算法，通过训练多个弱分类器，最后加权组合成一个分类精度比较高的强学习者。正所谓“三个臭皮匠，顶个诸葛亮”。其中弱分类器一般是指一个分类器的分类结果仅仅比随机分类好一点点。算法过程1、对于训练集中的每个样本建立权值wi，表示对每个样本的关注度。当某个样本被误分类的概率很高时，需要加大对该样本的权值。2、进行迭代的过程中，每一步迭代都是一个弱分类器。我们需要用某种策略将其组合，作为最终模型。

2021-09-23 20:37:00 715

原创 numpy中字符编码

numpy字符编码这里首先先举一个例子：import numpy as nppersontype = np.dtype({ 'names':['name', 'age', 'chinese', 'math', 'english'], 'formats':['S32','i', 'i', 'i', 'f']})上面代码中，定义了一个结构数组persontype，实际上S32用的是numpy中的字符编码来表示数据类型的定义，比如i代表整数，f代表单精度浮点数，S代表字符串，S32代表

2021-09-23 09:42:15 875

原创利用pandas进行数据清洗

Pandas进行数据清洗1、完整性1.1 缺失值1.2 空行2、全面性列数据的单位不统一3、合理性非ASCII字符4、唯一性4.1 一列有多个参数4.2 重复数据我们有下面的一个数据，利用其做简单的数据分析。这是一家服装店统计的会员数据。最上面的一行是列坐标，最左侧一列是行坐标。列坐标中，第 0 列代表的是序号，第 1 列代表的会员的姓名，第 2 列代表年龄，第 3 列代表体重，第 4~6 列代表男性会员的三围尺寸，第 7~9 列代表女性会员的三围尺寸。数据清洗规则总结为以下 4 个关键点，统一起来

2021-09-22 18:53:32 2281

baidu_41797613的博客