自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 如何用Git LFS管理超过50MB的文件

Git大型项目管理的几种方法,使用场景如:利用Unity+Git进行版本控制

2022-12-11 02:23:43 803 1

原创 Python转换字典为dataframe

假设有以下字典,目的转化为下方的dataframe。方法1:从字典中获取键值对(items)方法2:利用Series构造器参考:https://stackoverflow.com/questions/18837262/convert-python-dict-into-a-dataframe

2022-06-20 19:19:33 748 1

原创 一文看懂集成学习 Ensemble methods(Bagging, Boosting)

集成学习(截图来自《西瓜书》)Bagging从原始样本集中随机采样。每轮从原始样本集中有放回的选取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(bootstrap的过程,由于是有放回抽样,所以k个训练集之间相互独立)每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)利用这k个基模型对测试集进行.

2022-03-03 16:37:20 291

原创 Coursera Andrew Ng ML 课后错题集

目录RegularizationRegularization正确答案B:Adding a new feature to the model always results in equal or better performance on the training set “大道至简”:正则化的作用是在于限制模型中参数,让模型的参数不会太大,从而减少模型过拟合的可行性;A、D:引入太多容易正则化,模型可能对训练集会对训练集拟合不足,由此在新的examples上也不会表现太好;C:增加特

2022-01-30 02:17:38 892

原创 正则表达式 匹配美元等多种货币符号的超简单方法

\p{Sc} #带小数点也不怕SymbolMeaning\pa character with the xx propertyScCurrency symbol

2021-11-26 04:02:22 5282

原创 Python wordcloud自定义背景图片方法及mask无效的解决方案

准备导入必要的库from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator生成mask/mask transform总的来说:就是通过导入自己相要的图片作为mask遮罩mask遮罩其实是一个代表形状的二维数组,所以我们要通过np.array()将图片转化为二维数组。有些朋友会发现即使np.array()后mask依旧未生效,因为mask的格式不同结果往往不太一样,这时候需要transform一下(如果我们看下生成的矩阵,矩阵的

2021-11-18 04:14:19 7859 1

原创 pandas apply自觉无误却一直报类型相关错误的可能原因 XX is not subscriptable/iterable

先说结论pandas内空值nan的类型是float,apply因为类型出bug大概率就是有脏数据或者空值没处理好!!!Background我在做的一个影片数据的分析,genre列是一组以list为元素,list里的内容是该影片的电影题材标签。我准备apply一下拿到column里每个列表的题材类型,但是一直报错,明明是list呀,为什么提醒我float对象的bug呢?我以为是因为dataframe中该列的dtype是object所以才出现此类型错误,然而!pandas是无法将column的dt

2021-10-25 04:23:56 3157

原创 解决方案:pandas列存在空值的情况下,用ast.literal_eval转换

错误描述由于pandas column中存在NaN,在用ast.literal_eval进行,出现ValueError: malformed node or string错误原因ast模块是帮助Python应用来处理抽象的语法解析的,如果输入不是合法的Python数据类型,则ast.literal_eval将引发异常。根据文档,ast.literal_eval()仅在字符串结构中存在字符串、数字、元组、列表、字典或布尔值及None的情况下才有效,而pandas的NAN实质是float类型。解决方

2021-10-20 19:09:29 1565

原创 UnicodeDecodeError: ‘ascii‘ codec can‘t encode character ‘\xe9‘

今天准备通过塞尔达的人物名扒网页时遇到了这样的问题,看样子和python的编码有关。交代下背景,首先我写了一个方法去拿对应人物名字的query语句,再利用urllib去访问query地址的内容。本来下载的挺顺利,突然报了上述错误。后来发现是因为有个人物名Granté的‘é’是特殊字符,python编码不出来。解决方案:通过urllib.parse.quote_plus(name)修改对应query语句中出现特殊字符的部分(不要编码整个query),然后就run成功了。...

2021-09-24 22:31:40 248 2

原创 NetworkX教程速过

NetworkX教程速过importimport networkx as nxGraph(图)创建图G = nx.Graph()Nodes(结点)直接添加G.add_nodes()迭代器(列表)添加G.add_nodes_from([a,b,c…])添加其他图的节点H = nx.path_graph(10)G. add_nodes_from()将图作为节点添加G.add_nodes_from(H).add_node(H)Edges(边)直接添加迭代器(列表

2021-09-05 16:49:31 1050

原创 一文秒懂IPython和Jupyter的关系

IPython和Jupyter的关系和不同简单来说,Jupyter是IPython的进化版。IPython的作用从官网我们可以看到, IPython notebooks 最初的目标是让使用 python 变得更容易和更具交互性(只是 python)。Jupyter and the future of IPython根据IPython的官网截图,我们可以看出来Jupyter 取代了 IPython,IPython目前专注于交互式Python编程,同时为Jupyter提供Python内核。而J

2021-08-31 14:15:16 1825

原创 一篇文章理解激活函数和常用激活函数的选择

激活函数是什么?为什么要用激活函数?线性——>非线性拟合常用激活函数SigmoidReLU如何选择激活函数?参考链接

2021-07-16 17:05:36 485

原创 Scalar, Vector, Matrix, Tensor, Array 傻傻分不清楚,看完这篇可视化你就明白!

目录Scalar(标量)Vector(向量)Matrix(矩阵)Tensor(张量)Array(数组)先上两张图感受下,Scalar-Vector-Matrix-Tensor的过程即从单个数值到一维到二维一直不断增加维度的数据结构。Scalar(标量)Vector(向量)Matrix(矩阵)Tensor(张量)Array(数组)...

2021-07-16 11:50:42 13828 1

原创 第二章:一个案例吃透深度学习(上)作业

作业 2-1:1.使用飞桨APIpaddle.vision.datasets.MNIST的mode函数获得测试集数据,计算当前模型的准确率。参考链接:训练与预测-使用文档-PaddlePaddle深度学习平台简便方法:直接使用通过paddle.Model训练与预测eval_result = model.evaluate(test_dataset, verbose=1)等同于:拆解Model.evaluate()-- 用基础API验证模型# 加载测试数据集test_load.

2021-07-10 17:04:09 902 1

原创 第一章:零基础入门深度学习(下)作业

作业1-5在AI Studio上注册用户,查阅本课程的案例库,找到房价预测的案例。

2021-07-10 16:26:49 457

原创 第一章:零基础入门深度学习(上)作业

作业1-2 样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值计算,这是为什么? 当部分参数的梯度计算为0(接近0)时,可能是什么情况?是否意味着完成训练? 作业 1-3随机梯度下降的batchsize设置成多少合适?过小有什么问题?过大有什么问题?提示:过大以整个样本集合为例,过小以单个样本为例来思考。 一次训练使用的配置:5个epoch,1000个样本,batchsize=20,最内层循环执行多少轮?作业1-4...

2021-06-20 00:42:47 1447 5

原创 为什么需要对数值型的特征做归一化(Normalization)?

如题,为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。举例:身高体重,体重的数量级比身高大,轻微变化却因为其单位(斤)的影响会比身高变化显得很显著,所以要将这两个变量放在相同的数量级比较;常用的归一化方法线性函数归一化(最大最小值归一化)和零均值归一化。归一化公式线性函数将原始数据线性化的方法转换到[0,1]的范围,实现对原始数据的等比例缩放。1.规范化处理(最大最小值归一化)公式如下:其中Xnorm为归一化后的数据,..

2021-06-17 21:55:44 677

原创 通俗理解 fit,transform,fit_transform,以及训练集用fit_transform且测试集用transform的原因

简单介绍fit(): Method calculates the parameters μ and σ and saves them as internal objects.解释:简单来说,就是求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。transform(): Method using these calculated parameters apply the transformation to a particular dataset.解释:在fit的基础上,.

2021-06-17 21:51:04 2116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除