本本的小橙子-CSDN博客

原创第十三周：机器学习

本周学习了对GAN进行了初步的学习，通过具体案例理解了GAN的基础概念并着重从散度出发分析了GAN的理论，最后还了解了GAN的一些训练小技巧；除了上述理论部分，本周还进行了word2vec的gensim代码实践，通过word2vec模型和fasttext模型来分别完成cbow任务和skip-gram任务，最后对比二者的相似度预测结果来得出初步结论。本周学习了GAN的基础概念以及其算法和理论推导，并且进行了gensim代码实践。下周将继续学习GAN的后半部分，并保持具体案例的分析及实践。P_G。

2024-09-28 22:10:04 909

原创第十二周：机器学习

本周继续学习机器学习的相关课程，首先了解了监督学习和非监督学习的概念，以前所做的”分类和回归“任务都属于监督学习，本周主要聚焦非监督学习，并且将其应用于实践——word embedding；接着更进一步了解了transformer的构造，学习了encoder和decoder的具体流程，并且举例了几种能够应用于seq2seq模型的机器学习任务；最后，总结了几种基本的的和组合式的attention类型。

2024-09-22 18:03:46 1244

原创第十一周：机器学习

前两周主要学习了RNN的流程图、分类以及其训练过程。接着对RNN的理论讨论，这周以两个RNN的基本案例（来自pytorch官方文档）来实现其代码实践。任务一和任务二是一个逆向的过程，任务一进行主要的代码分析，任务二侧重进行总结。最后，还从training和testing两方面入手学习了“批归一化”，并且根据现有实验结果讨论了BN和ICS的关系。本周进行了RNN的代码实践，不仅逐行分析解读了pytorch代码，还对RNN的训练流程做出总结。继续学习了optimization失败的原因——BN。

2024-09-15 16:36:37 946

原创第十周：机器学习

接着上周对RNN的讨论，这周学习了如何训练RNN，对于训练过程中出现的问题做出了解决——LSTM，进而又介绍了几种RNN更加复杂的应用情况，以及将RNN与结构化学习进行对比分析；接下来，简单了解了GNN，为了进一步了解谱图理论，我们又对其计算流程和傅里叶变换等技巧进行分析和数学推导。本周对RNN进行了更深层次的分析，主要是针对RNN的应用场景及RNN训练中遇到的困难；还有GNN及谱图理论的分析推导。下周将继续学习GNN。

2024-09-08 16:48:56 1022

原创第九周：机器学习

本周主要围绕RNN进行探讨，从为什么需要这类”循环网络“入手，提到了”slot filling“技术，接着又对RNN的几个典型类别进行流程绘制及优缺点分析。总的来说，RNN有几种特殊情况——LSTM和GRU。本篇文章主要是对LSTM的基本结构、计算步骤进行了解和总结，最后还手写推导了一个具体的案例。LSTM和一般的network还是有一些区别，为了理解它和RNN的关系，又进行了对比分析。这周由RNN入手，进而深入学习了LSTM的基本原理和计算流程。

2024-08-31 18:48:09 712

原创第八周：机器学习

前两周学习了CNN的基本架构，针对全局信息的考虑问题，提出了注意力机制。本周围绕注意力机制和自注意力机制的概念和计算流程进行理解和推导。当前深度学习比较常用的是自注意力机制，可以解决”神经网络建立多个输入之间的相关性“问题，所以本周还对自注意力机制的具体计算步骤进行详细推导。最后，根据实际需要提出了多头自注意力机制，并且比较了卷积神经网络和自注意力机制的优缺点。本周主要围绕注意力机制和自注意力机制进行学习，下周将学习 RNN，并且将其与自注意力机制进行对比分析。

2024-08-25 10:42:58 950

原创第七周：机器学习

上周以宝可梦分类器为例，发现了“理想”和“现实”之间的差距，从而提出了一个困境：“loss很低”、“现实接近理想”二者是否能同时满足。本周接着困境的出现，提出了解决方案——深度学习，并且也验证了深度比宽度的优势。接着上周学习了CNN的基本流程和专业术语，我们发现CNN对于缩放、旋转、平移都没有不变的特性，所以提出了“spatial transformer”来增强平移不变性。一、鱼与熊掌兼得。

2024-08-11 15:23:36 586

原创第六周：机器学习

接着上周学习率在训练中的影响，本周对深度学习常见的几种优化算法做了总结，着重分析Adam算法的优缺点和具体步骤；接着又深入学习了分类器的用法，以宝可梦和数码宝贝为例，提出了数据收集不全的问题并提出了解决方案；最后较浅层次的了解了卷积神经网络中卷积层的运作方式，以及一些常用术语。Abstract本周学习主要分为以下三个部分：第一是深度学习的常用优化算法，一方面复习了前面的内容和总对所学优化算法的总结，另一方面学到了Adam算法解决了梯度下降的stuck问题（卡在local minima或者震荡不往前走）；

2024-08-04 18:27:14 811

原创第五周：机器学习

继上周学习了贝叶斯基础的理论，本周将朴素贝叶斯和贝叶斯网络运用到实践中去，通过对代码的逐行分析，更加深入理解了贝叶斯。接着前两周提出“训练集达不到最优化”的问题，继续探究了批次、动量、学习率的影响因素。最终得出，小批次的数据集具有更高的精确度；动量可以解决局部最小值的困境；均方差和自适应学习率会使得学习率进行动态的改变，优化了学习率大不收敛和学习率小速度慢的问题。本周解决了前两周遗留的问题，对贝叶斯理论的理解更加深刻，进一步讨论了optimization fail的影响因素。

2024-07-28 18:10:05 987

原创第四周：机器学习（贝叶斯专题）

前两周通过机器学习的两大任务：回归与分类，提出了概率生成模型，该模型可以与贝叶斯概率模型结合来解决分类问题。为了更加深入贝叶斯理论的学习，本周以贝叶斯理论的数学基础和公式推导为切入，进一步将贝叶斯理论融入实际案例。以经典数据集为例，逐步推导了朴素贝叶斯在案例中的实现过程；发现朴素贝叶斯的不足后，对贝叶斯网络进行了初步的了解。就是将“主观概率”加入到分类预测中，在已知某种有用信息的情况下的概率预测，而不是单纯的由大量数据推测的先验概率。

2024-07-21 07:43:53 783

原创第三周：李宏毅机器学习

在前几周掌握了机器学习基本步骤后，本周了解了模型在不同情况下的发生原因以及改进措施，可以看出loss的观测无论在训练集还是测试集上都至关重要。最优化是机器学习的重要步骤，但是总是达不到最优，分析得到了以下几种原因：局部最小值和鞍点、批次、学习率、损失函数等。接着对几种原因进行分析并找出解决办法。本周以机器学习的基本框架为主体逐步分析，旨在于找到最好的训练效果，其中optimization比较复杂。

2024-07-13 14:17:18 876 1

原创第二周：李宏毅机器学习

本周以宝可梦为例，学习了回归和分类的基本步骤。在线性回归模型的改进中，利用正则化解决了过拟合的问题；在分类任务中，建立了概率生成模型，对模型各部分概率进行了逐步分析，提出了高斯分布和最大似然估计（模型参数估计）。最后，提出了分类任务的另一种模型是逻辑回归，将逻辑回归与线性回归进行比较，并对比了均方差和交叉熵，又将概率生成模型和逻辑回归模型进行对比，分析各自优势场景。一、线性回归通过一组数据点来拟合线性模型，以便估算目标结果标签与一个或多个特征变量之间的关系，从而预测数值。

2024-07-07 17:21:48 847

原创第一周：李宏毅机器学习

本周基本了解了机器学习是什么并学习了其模型的训练步骤，以具体案例作分析一步步对模型进行优化并学会运用梯度下降法来找最小损失点；初步认识了神经网络与深度学习，也以具体案例介绍了深度学习的训练步骤；最后还学习了反向传播算法，并进行了手动模拟计算。：为什么要定义损失函数？：为了评估模型在训练过程中的效果，比如误差是否过大，或者是否模型过拟合。函数集（function set）就是只定义出了一个network structure，但是没有设定输入值和超参数（w、b），它包含或好或坏的function。

2024-06-30 17:36:09 1053

原创 python爬虫js逆向（标准算法加密）

答：加密前的内容一致时，加密后的结果一定相同！md5在线加密网站输入加密，发现真的是md5加密（对照加密后的字符串和前面网页控制台的n(o)后的字符串是否一样）。可以看出n()函数是MD5加密函数，o则是其中的待加密字符串（仔细观察发现是数据包中的请求载荷的参数）小知识点：常见的标准算法md5（32位）、sha1（40位）这种找标准算法的方法属于投机取巧了，有些并不是标准算法，而是js混淆，那么这个时候就需要另一种方法（补代码）！！！

2024-05-25 16:38:36 2829

原创爬虫常见报错（二）及一些思考

不是自带函数，是自定义的事件函数，它是指列表内容加载到内存中的形式。对它的理解还是太模糊！！！nodejs爬取博客园的博文 - 卡卡小狮子 - 博客园 (cnblogs.com)详细解读Jquery各Ajax函数：$.get(),$.post(),$.ajax(),$.getJSON()-腾讯云开发者社区-腾讯云 (tencent.com)

2024-05-19 17:15:33 1381 1

原创爬虫常见报错（一）

尝试之后仍然无法解决，然后突然看到了我的headers里面的cookie字符串是乱码的，意识到了到了headers解码读取cookies的时候就已经报错，根本不是请求后返回文本的问题。一开始我以为是requests请求返回的内容编码有错误，所以在请求时添加了编码方式encoding，但是发现get方法居然没有这个参数（可能不同版本不一样把），所以我以为是写法的问题。最终把所有的内容写完后编译运行了一下，报错，搜了一下，发现是因为文件名与包的名称重复了！改一下文件名就好啦！至此，就完整的安装好了。

2024-05-16 17:02:23 834

原创 python爬虫（数据分析+批量获取图片）

第一部分吧是讲述如何爬取网页中自己想要的那部分数据，并且将数据有序的存入csv文件中；第二部分是如何批量爬取图片。其中包括一些库的导入、python的语法、正则表达式、数据处理、数据包和网页html的分析等，还有一些报错处理。写得比较杂乱，尽量理清楚。每一部分先放了效果图，然后是详细步骤。下文的用到的代码上传至百度网盘：链接：https://pan.baidu.com/s/1-lTHwLO5pwmUGpal7f7mnQ提取码：xwsp。

2024-05-15 16:33:25 2462

原创 yolov5训练数据集

yolo（you only look once）系列是目标检测的算法，可以应用在多个不同的领域，yolovx的算法不断进行改进，提高性能，增加网络的复杂度，至于具体都有哪些优缺点，还没有深究。至于为什么选择yolov5，因为它有轻量级模型大小，速度快的同时又兼备了较好的准确性。而且网上的讲解教程也很多，算是主流一点的。

2024-05-08 14:30:17 687 1

原创如何使用anaconda来创建不同的虚拟环境及安装包的错误总结

如果不在环境变量中添加此anaconda，那么anaconda在windows的shell中便不能直接打开，会被认为“不是内部或外部命令”，而可用的方法就是进入anaconda的shell中再执行conda命令。以下name的位置换成自己给该虚拟环境起的名字，version的位置换成需要的python版本，比如3.9、3.7等等。可能是由于网络的问题，使用以下源再次安装，一般都可以解决（注：以下的package的地方换成自己需要安装的包）以下name的位置换成想要卸载的虚拟环境的名称。

2024-05-07 21:54:31 761

benbenxinchen的博客