2020年12月_星海千寻

原创 ML《决策树（三）CART》

上一篇我们学习的ID3和C4.5算法，今天我们来看看CART（classification and regression tree）算法。从名字上也能看出来，它是分类和回归树。本文参考以及采用了很多其他博主的文字，因为自己觉得他们写的很好，自己做了归纳和整理，汲取百家之长。其实这会儿是有点困了，因为自己也在忙完工作后有点累，也是不停地站东脑子去学习算法，也在思考这三种决策树算法的区别和相似处，经过百度呢，也是大同小异，所以今天偷个懒，哈哈，就当是自己按照自己的理解思路整理整理，免得后面忘记了。当然了，

2020-12-30 06:16:26 356 4

原创 Python《wallhaven壁纸爬取》

今天不小心又发现了壁纸网站，感觉壁纸很多啊，多？我就忍不住了。爬一下咯。我们今天爬取网站是https://wallhaven.cc/。先来分析分析：进入首页：我们先去找标签，果然有个大标签地址链接。点进去后发现：一共有三层标签分类，第三层的标签就直接对应了很多的图片。假如我们随便点击一个“anime girls”，我们发现他的标签号是5。第一页呢只是几张图，但是有个按钮能看到更多，我们点进去。发现url很有特点啊。q=tagId。我猜测这个q是query的意思。后来经过测试，我们

2020-12-30 03:10:30 7776 4

原创 Python《wallpaper abyss壁纸》

今天发现了一个新的壁纸网站，wallpaper abyss，很不错哦。然而我的第一反应却是，把它爬取下来。到所有的分类页面看一看点击其中一个分类进去后每个标签item都有缩略图，且有子标签，子标签作为子目录，我们看看缩略图和高清图的区别吧。所以我们可以从缩略图页面即可得到高清img的地址。每一个大的分类都是一个个分页好了，全部分析完毕，ok完整测试代码如下：import timefrom concurrent.futures import ThreadPoolExecutori

2020-12-28 04:41:58 4508 1

原创 ML《决策树（二）C4.5》

上一篇我们学习的ID3算法呢，有一些缺点。1：它只能处理离散值。2：容易过拟合，因为我们拿到了样本，总是希望最后得到的样本是非常纯的，所以我那个我那个造成了过拟合，训练样本拟合很好，泛化能力降低。3：在每一次的节点选择中啊，它总是倾向于某个属性值种类多的特征。这里新增一个缺点4：就是没有对缺失值的处理。因此我们有另外一种决策树的算法，C4.5，它也是决策树算法。我们主要来看看C4.5针对ID3的缺点进行的处理和改进吧。====华丽分割线其中三个呢，比较好理解，我就先写出来：1）对于上述I

2020-12-27 05:48:41 430

原创 ML《决策树（一）ID3》

今天做个回顾和记录，简单做个学习，也是梳理下知识点，决策树的学习。本文的学习，自己不想画图，因为觉得没有必要自己画图，所以文中一部分图片是截取其他人的分享，但是内容都会是自己写的。当然了，这里是浅析学习学习。一：ID3拿西瓜书里面的来举例子来说，我们去挑西瓜呗，西瓜的有纹理，色泽，触感等特征，怎么判断这是不是好瓜呢？有经验的人会告诉我们，纹理咋样的是好是坏，然后色泽咋样的时好时坏，等等一系列的类似于if –else 的判断标准，画出来呢就是下图表示。这个只是举例子啊，很明显从数据结构的角度来看就

2020-12-27 04:50:55 202

原创 Python《必应bing桌面图片爬取》

桌面壁纸，来自于bing，必应的壁纸网址。https://bing.ioliu.cn/每一页都有12张照片，每个照片有对应的download高清大图的地址，有多个分页。但是，麻烦的是打开后，按不了F12，于是用python直接爬取页面，才发现是这样的。123就是F12的code，这个网址禁止了F12，禁止了ctrl+shirt+i，禁止了ctrl+s。但是这不影响啊，我们用urrlib.request可以获得整个页面的信息。每个图片的文本描述信息是在< h3>元素里的。每个图片的下

2020-12-26 03:47:22 1866 1

原创 Python《回车桌面图片》

今天我们爬取另一个壁纸网站https://tu.enterdesk.com/进入首页后：可以发现有很多的分类，我们直接按照分类来分别爬取。比如点击一个分类【美女】。https://tu.enterdesk.com/meinv/会有很多的照片条目。然后不断往下翻的时候也是不断在刷新更新，经观察network的XHR会发现，每一次的异步请求都是一个html页面哈。分析url如下：https://tu.enterdesk.com/meinv/https://tu.enterdesk.com/mei

2020-12-26 02:35:12 1297 1

原创 Python《爬取手机和桌面壁纸》

此次爬取壁纸网站，此网站全是静态的，没有反爬虫手段，感觉是适合新手练手。http://www.win4000.com/mobile.htmlhttp://www.win4000.com/wallpaper.html分别是手机壁纸和桌面壁纸。比如点开手机壁纸，我们会发现有很多标签。点开其中的标签，进入到该标签页。发现有很多的图片组，且包含有分页。再最后点击某个图片组可以发现有多张高清壁纸一个组图中，html页面的url是有规律的。http://www.win4000.com/mob

2020-12-25 03:21:24 567 5

原创 Python《通过解析http请求搞定动态加载，爬取toutiao图片》

今天我们下载头条的图片内容。进入头条首页，我们根据关键词搜索。发现有搜索出很多的条目，而且条目是根据鼠标往下滑动的时候就会动态加载出来，是动态更新的，之前我们曾使用过Selenium进行模拟鼠标滑动，一次性获得了很多的条目，最后再把所有页面的对应图片组的入口找出来，而今天我们试图用分析http request请求的方式来搞一次，每一次动态加载都是一次请求，所以我们来试图分析分析请求，看看能不能做出来。每一个条目点击进去能看到相应的文章里面有很多图片，说明是一个图片组。好了，看了大概的内容展示后，

2020-12-24 08:13:34 629

原创 Python《搞事情==蜂-鸟-图-片（二）》

今天我们来爬取另外个网站https://tu.fengniao.com/ 没错就是这个地址，不用翻其他的标签栏，，这个网站最大的特点就是一直往下翻都会有一个加载的操作，不断加载新的图片上去。可以试着滑动鼠标不断往下翻，不断往下翻，不断往下翻。。。。与上一篇博文不同的是，我们不是拿到第一张图片点进去，然后while循环去找下一张图片，今天我们换了个大标签，仔细发现网站的url也不一样了，而且我们今天是使用selenium来模拟实现鼠标的往下滑动，这样全部的图片group就能拿到了，这样我们就可以使用正常的

2020-12-22 08:55:01 232 3

原创 Python《搞事情==蜂-鸟-图-片（一）》

今天我们来爬取另外个网站https://photo.fengniao.com 没错就是这个地址，不用翻其他的标签栏，，这个网站最大的特点就是一直往下翻都会有一个加载的操作，不断加载新的图片上去。可以试着滑动鼠标不断往下翻，不断往下翻，不断往下翻。。。。总之啊，天荒地老海枯石烂啊，今天我们试着两种不同的方式来搞定它。下一博文写另外一种方法来搞定。在“图库”有多的子标签，按照子标签进一步划分。每到一个子标签，点击第一张图片进去。会发现这里又查看原图，下一页等信息，都是可以做直接抓取的。而且按照这

2020-12-22 06:22:29 302 1

原创 Python《突破JS动态加载，成功爬取漫画》

爬取的网址呢，还是上一篇博文涉足的 https://www.dmzj.com/ 但是这一次，我们使用selenium来获得每个章节的所有图片，因为动态网页比如常见的js动态生成，用静态方法访问网站并且获取html时，js动态生成的这一部分还没有生成，所以静态方法获取不了这一部分信息。selenium的webdriver,我个人理解webdriver是模拟用户用浏览器访问网络，只不过不是用户亲自用鼠标是双击，而是用的代码。在这里本人使用的是Firefox浏览器。这部分代码如下：# 无头浏览器这样浏览器

2020-12-21 06:04:28 779 1

原创 Python《使用selenium解决动态加载的问题》

爬取的网址呢，还是上一篇博文涉足的 https://www.dmzj.com/ 但是这一次，我们使用selenium来获得每个章节的所有图片，因为动态网页比如常见的js动态生成，用静态方法访问网站并且获取html时，js动态生成的这一部分还没有生成，所以静态方法获取不了这一部分信息。selenium的webdriver,我个人理解webdriver是模拟用户用浏览器访问网络，只不过不是用户亲自用鼠标是双击，而是用的代码。在这里本人使用的是Firefox浏览器。这部分代码如下：# 无头浏览器这样浏览器

2020-12-21 05:52:52 983

原创 Python《成功破解简单的动态加载的爬虫》

今天我们来爬取一个漫画网站这里由于漫画数量过于庞大，于是我就简单地爬取曾经小时候看过的漫画吧。比如下面的五个漫画：先来分析分析，拿《火影忍者》举例：点击进去后可以看到所有的章节罗列。嗯，这个没啥说的了，就是搜索出所有的< a>元素，找出其章节的标签，并且得到具体章节的链接，这个简单。继续点击其中某个章节进去后发现，是存在多个页面的插画，共同组成一个章节，这个总体来说也不难，因为url很有规律，url是递增的，直到共X页面，且每一页只有一张图片，我们只需要跳转到每一页下载一张图就

2020-12-20 06:16:58 582 1

原创 Python《使用Selenium 和pyautogui 实现自动登录淘宝》

有了上一博文学习即基础，这一节想来学习下自动登录淘宝。直接整上测试代码：from selenium import webdriver# import loggingimport timefrom selenium.common.exceptions import NoSuchElementException, WebDriverExceptionfrom selenium.webdriver import ActionChains# logging.basicConfig(level=log

2020-12-19 22:45:48 1611 1

原创 Python《使用Selenium实现自动化操作》

一：准备工作本文不贴任何图片1：先下载安装Selenium ，在conda的环境下直接使用 conda install Selenium2：查看浏览器版本在浏览器地址栏输入chrome://settings/help 则可以查看浏览器版本3：接着需要下载Chrome浏览器驱动，根据自己的浏览器版本，地址如下：https://sites.google.com/a/chromium.org/chromedriver/downloads驱动下载完后放置在一个目录下，比如是：二：测试整起1：登录

2020-12-19 22:16:48 230 1

原创 Python《爬取各种帅哥图片》

今天我们来爬取http://www.shuaia.net/但是我们今天只爬取图片http://www.shuaia.net/tp/ 下面均是分析过程。按照之前的套路，我们先拿到所有的图片分类标签。点击【更多图片】即可得到所有图片的分类点击【动漫图片】的大分类进去得到一整个页面，一个页面有个20个套图。所以我们先来搞定分页，如下：再来对付每一个套图的入口继续点击该套图，进去后发现所有的图片都是在一个网页上，嗯，挺方便。至此，分析完毕。好了，我们先下载一张图片试试水。代码如下：

2020-12-19 07:59:17 583 3

原创《信息熵，联合熵，条件熵，交叉熵，相对熵》

一：自信息二：信息熵三：联合熵四：条件熵五：交叉熵六：相对熵（KL散度）七：总结

2020-12-16 02:02:13 198

原创 Python《使用lxml解析xpath--爬取konachan》

今天尝试使用 lxml 来解析 xpath的文档，其实也就是html文档了啦。一：lxml和xpathlxml库是一个XML、HTML的解析器，主要用于解析和提取XML、HTML数据。lxml库先将HTML文档解析，然后就可以使用XPath 搜索或遍历HTML文档中的节点。首先得预先安装lxml，conda install lxmlXPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历，而将 HTML文档转换成 XML文档后，就可以用 XPath

2020-12-13 05:30:16 24139 1

原创 Python《爬虫再练手》

今天发现了一个链接，是GitHub 上有哪些优秀的 Python 爬虫项目？https://www.zhihu.com/question/58151047/answer/859783454然后呢我大概扫了一眼，挑选了一个网站来搞，没错就是这个http://girl-atlas.net/首页就是一个分页了每一页的地址很有规律，在根地址上增加”?p=XX”，XX就是页码边贸，可见首页其实也是http://girl-atlas.net/?p=1 ，嗯，验证正确，因此我们只需要把最大页面数字记录下来就能遍

2020-12-13 04:37:28 561

原创 Python《第一次爬虫遭遇反盗链（下）》

上一篇博文，我遇到了防止盗链的问题，防盗链原理http标准协议中有专门的字段记录referer一来可以追溯上一个入站地址是什么二来对于资源文件，可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段防盗链的作用在很多地方，如淘宝、拍拍、有啊等C2C网站，发布商品需要对宝贝进行描述，就需要图片存储，而为了使自己辛辛苦苦拍摄的图片不被别人调用，就需要防盗链的功能。提供防盗链的图片网站很多，如有照片、又拍网、百度相册、QQ相册、网易相册等等，但是既能支持网店外链，又有

2020-12-12 05:05:10 405

原创 Python《第一次爬虫遭遇反盗链（上）》

今天想爬取下往上很多人都爬取过的https://www.mzitu.com/ 。结果很尴尬，只能很浅显地爬取一些首页图片，因为遭遇到了反盗链。鉴于图片过于那啥，其实我就来搞学习的，也不是什么LSP，老司机之类的，因此，在此就不做解析了哈哈哈，大家自行去看网站的首页吧啊。因为遭遇到了反盗链，所以浅显地把首页上哪些分页的照片爬取下来就得了。这是故事上，下一次我将试图突破反盗链，如果成功的话，就会补充上。import osimport requestsfrom bs4 import Beautifu

2020-12-12 03:50:56 593

原创 Python《多线程并发爬虫》

今天再去爬取另外一个网站 http://pic.netbian.com/先来看看这个网站的几张图片，我们试图单独爬取看看。我们单独爬取一下试一试本地查看，证明图片是可以爬取成功的。代码如下：import requests #导入模块def run4(): headers = {'referer': 'http://pic.netbian.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64;

2020-12-12 03:40:13 644 2

原创 Python《爬取IPhone各式壁纸》

这会儿是国内时间6点半了，感觉我是依然乐此不疲地学习怎么取爬取网站的图片，经过上一次的实验，感觉初步浅显地基本关键包的用法，以及自己本来就具有HTML的基础，这次我是找到了一个网站，从头到尾自己独立实验成功，内心有点小激动，感觉自己融会贯通的能力有上一层楼啊，于是赶紧写下来纪念一下。话不多说，整起！我们来爬取https://divnil.com/wallpaper/iphone/ 这个网址下的图片。这是个日语网站，但不影响我们推理和爬取图片，总体看上去呢，网站具有一定的分层结构，https://div

2020-12-11 07:13:12 438

原创 Python《爬虫收集》

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。https://github.com/Chyroc/WechatSogouDouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为

2020-12-11 03:47:33 264

原创 Python《爬虫初实践》

今天转转悠悠，突然不知道该学些什么，偶然的一瞬间脑子里想到了爬虫，这个我很早就了解的技术，我却没有亲自实践过，于是这次想好好地去了解下，学习下简单的使用方法，毕竟自以后的深度学习中也是有用处的，爬取图片来做数据源。一：简单入手网络的上的图片都有所在服务器URL。我们首先得获得一个可以发起HTTP请求的办法，我们使用requests包的方法。做个简单的实验，把www.baidu.com的首页HTML请求下来。import requests #导入模块def run(): #声明

2020-12-11 03:24:51 249

原创深度学习《Photo Editing》

一：问题提出在GAN中的生成器Generator，输入的是一个低维的向量Z，输出则是一个图片，而且呢，在Z空间内上每一维度的值，或者几个维度的值都可能表示一张图片的某个特征，改变Z的值就可以调整图像的内容。如果此时我们已经训练得到一个Generator。问题1. 对于一张已有的生成图像X，如何反推回去得到它对应的向量？问题2. 又如何知道中的每个维度对应着图像中哪个特征呢？问题3. 该维度是以怎样的具体的数值控制着该特征的表现呢？二：问题解决解答问题1：假设我们现在已经有了一个Genera

2020-12-10 01:15:54 732

原创深度学习《BiGAN》

BiGAN的算法思想：这里把将编码器和解码器分开，不再一起训练，但是额外加一个判别器，将编码器和解码器的输入和输出（Z和X）同时作为判别器的输入，然后让判别器区分输入数据是来自编码器还是解码器，但是encoder和decoder会尽量不让D做出正确的判别，如果有朝一日，判别器D无法分别输入的数据到底是来自哪个，就说明编码器的输入图片和解码器生成的图片很接近，编码器输出的z和解码器输入的z很接近，就成功了呢。简单的原理就是将编码器看成一个P(x,z)分布，将解码器看成Q(x,z)分布，通过判别器，让他们的.

2020-12-08 22:48:58 4413

原创深度学习《再探AE和VAE的区别》

最近学习了VAEGAN，突然对VAE和AE的概念和理解上变得模糊了，于是赶紧搜索资料，重新理解一番。一：AE输入的图片数据X经过encoder后会得到一个比较确切的latent code Z，这个Z通过decoder重建出图像X’，我们的损失函数就是X和X’的重建损失值。AE特点就是：自动编码器是数据相关的（data-specific 或 data-dependent），这意味着自动编码器只能压缩那些与训练数据类似的数据，反过也是一类数据对应一种编码器，无法拓展一种编码器去应用于另一类数据。自动

2020-12-08 19:18:19 6036

原创深度学习《EBGAN》

本文学习自李宏毅老师的深度学习视频。EBGAN如下图所示：它仅仅只改变了判别器D的结构，它将D改成一个AE的结构，也就是说，现在给D一个数据让他判断是不是真实的数据，它的做法就是去把数据重构一把，看看能不能重构回来，也就是看看重构的损失/误差大不大，根据这个损失值去打个分数，如果重构损失越小，说明原来的图片的效果越好，相反如果重构损失越大，说明原来的图片的效果越差。传统的D网络是一个二元分类器，训练的时候需要正负样本，不能单独训练，需要G网络产生负样本。但是现在D网络变成了一个损失值的计算，不属于分

2020-12-08 02:24:48 984

原创深度学习《VAE-GAN》

VAE-GAN如下图所示，也就是VAE+GAN的组合。我们知道VAE是由一个编码器一个解码器组成，编码器可以将数据映射到一个低维的空间分布code c，而解码器可以将这个分布还原回原始数据，因此decoder是很像GAN中的generateor，如果再后面拼接上一个判别器D，这样的话，前两个模块就是VAE，后俩模块就是GAN。训练的时候，decoder输出的x’要和原始的x尽可能接近（L1或L2距离），x’和真实数据x经过D需要判别出是是否是真实的图片，训练结束后，我们就能直接取出GAN的部分做生成使

2020-12-08 02:01:25 18516 5

原创深度学习《stackGAN》

今天我们来学习下stackGAN的结构设计

2020-12-07 01:09:13 562

原创深度学习《CGAN新认识》

本文是学习自李宏毅深度学习教程的内容，之前学习过CGAN，本文想做一些补充的内容，也算是完善下认识。也是因为自己有强迫症。1：网络结构稍加改变之前认识的CGAN的结构如下：最后在D网络输入的地方，只输出一个标量，这个标量既要代表是否是真实的图片，还要代表C和Z是否是匹配的，这样做的话呢，如果给一个样本输入，最后给了个低分，我们就无法区分出到底是哪个原因导致的。因此对D网络稍稍做了点改变就是为了使我们能区分出是哪个原因导致的，也就是输出两个标量，一个代表是真实的？另一个代表数据X和条件C是不是匹配

2020-12-06 17:55:04 197

原创深度学习《patchGAN》

这一篇比较简单，于是也就简单学习下。在以往的GAN学习中，判别器D网络的输出是一个标量，介于0~1之间，代表是真实图片的概率。而patchGAN则是输出是NxN的矩阵X，每一个元素x[i][j]表示一个patch，对应于图像的一个感受野，最后取各个patch部位的均值来表示最后总的来看是真实图片的概率。直观上理解就可以了，普通GAN输出一个数，像是一言堂，PatchGAN输出一个矩阵，最终结果求平均，考虑到图像的不同部分的影响，就像考虑了多人的建议然后给出决定。实际上，一些研究表明对于要求高分辨率、

2020-12-05 05:30:38 7837 4

每天进步一点点《ML - 异常点检测》.docx

每天进步一点点《ML - K-Means》.docx

每天进步一点点《ML - 支持向量机》.docx

每天进步一点点《ML - 人工神经网络》.docx

每天进步一点点《ML - 线性回归》.docx

学习OpenCV(中文版)).pdf

空空如也