EmpGro-CSDN博客

转载 python 爬虫'utf-8' codec can't decode byte 0x83 in position 0: invalid start byte 的解决方案

今天用Python爬取豆瓣的时候,发现报错“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x83in position 1:invalid start byte”,一直在找文件的错误,最后经过网友的提示,错误原因竟然是我的 headers 中有一条:“'Accept-Encoding': 'gzip, deflate'”这一条是...

2019-04-09 09:37:41 1907

原创 win10系统 anaconda环境安装theano绝对成功

win10系统 anaconda环境安装theano1创建环境在anaconda prompt中输入conda create -n theano python=3.5注意此处python一定要是3.5版2切换环境activate theano此时界面会变为如下形式： (theano) c:\user\your_use_name&amp;amp;amp;amp;amp;amp;amp;gt;...

2018-08-02 20:18:48 10257 20

原创 EM（Expectation Maximization）算法原理

假设我们有100个男生身高的数据，我们还有100个女生的身高数据，很显然女生身高的分布和男生肯定不同。此时我们要单独求出男生或女生身高的分布，由1.1可知，我们可用极大似然估计得出。但是，若男生女生数据是混在一起的，并且无法区分男女，那么对这一堆混杂的数据抽样时，我们怎么确认：1. 每一个样本属于男生分布还是女生分布2. 男生分布和女生分布的参数各是多少

2018-03-09 16:34:38 819

原创 Dynamic routing between capsule 的思维导图

读Hinton的Dynamic routing between capsule时为了便于梳理，做了一张思维导图，顺便也把参数个数计算了一下，分享出来以供交流以上是总的导图其实CapsNet可以按照下图来做直观的理解：实际上就是在原来的CNN网络中加入了Dynamic Rounting部分并将激活函数变为了squashing函数其中Dynamic Rounting体现了动态路由思想，sq

2018-03-07 14:35:18 403

原创 windows安装face-recognition

不用自己编译，也不用自己下载的windows结合anaconda安装face-recognition的方法。

2017-12-07 20:14:48 1199 1

原创 Linux安装face-recognition

用的是centos7系统，用户为master 用传统如下方式安装face-recognition时会出现dlib无法找的问题pip install cmakepip install dlibpip install face-recognition所以尝试了其他方法以下安装都在master用户下进行 1.通过anaconda解决dlib的前置软件，这里安装的dlib是19.4版本，而face-

2017-12-06 09:55:46 3273

原创 SVM中核函数的理解

这篇文章是阅读JULY大神支持向量机通俗导论（理解SVM的三层境界）的一点学习笔记。在JULY大神原文中，对核函数解释的时候，点和点的坐标表示混用了”X”这个字母，从而为理解带来了不便。于是自己经过一些验算和重写之后，有了这一学习笔记。

2017-11-26 21:43:35 2296

原创【2017年cs231n学习笔记3】Lecture4-1 反向传播

在原课程视频中，lecture4讲解了反向传播及一部分神经网络的内容，但是“反向传播”（Backpropagation）作为神经网络计算的基础太过重要了，于是在笔记中我将反向传播单独拿出来，结合自己查资料的理解，做了一些记录，希望读这篇文章的人能得到一些帮助。

2017-11-09 20:03:24 449

原创【2017年cs231n学习笔记2】Lecture3 损失函数最优化

这节课的主要内容： 1. 定义一个损失函数（loss function），用将训练集代入其中获得的评分来量化W的好坏。 2. 找到一个高效的方法来寻找使损失函数最小的W，（我们称其为最优化optimization）损失函数首先我们定义损失函数的一般形式：对于一个数据集 Xi代表输入进入分类器的图像像素数据，Yi代表你希望得出的标签。我们定义其损失函数的一般形式为：损失函数定

2017-11-06 18:25:33 1402

原创【2017年cs231n学习笔记1】Lecture2 K近邻距离度量超参数交叉验证线性分类器

这是2017年，斯坦福大学，李飞飞教授及其博士生讲授的CS231n课程的第二节，主要内容是KNN算法、距离度量算法、超参数的选择方法、线性分类器的简单介绍。所有图像来自课程ppt，内容来自课程视频。全文都是看英文字幕所得，如有翻译转诉不恰当之处请包涵。

2017-11-05 23:36:24 507

原创生产者消费者模型中Queue理解

在生产者消费者模型中，Queue用作两者之间的缓冲但是由于Queue的内在机理中包含着自动执行wait、notify等功能的机制，于是单从程序代码上看起来会很奇怪。

2017-11-01 16:49:45 440

原创【多进程与多线程】threading中setDaemon与join

在threading中setDaemon和join都是用来设置等待首先要明确的是：假设子线程是t 无论是t.setDaemon() 还是 t.join的等待都是相对于主线程来说的。.join()t.join()的作用是，当t在执行时，主线程在join处暂停，只有当t结束运行时，才继续执行join下面的语句如以下程序：import threadingfrom time import c

2017-10-26 17:50:41 475

转载【多进程与多线程】为什么在Python里推荐使用多进程而不是多线程？

转载自转载地址最近在看Python的多线程，经常我们会听到老手说：“Python下多线程是鸡肋，推荐使用多进程！”，但是为什么这么说呢？要知其然，更要知其所以然。所以有了下面的深入研究：首先强调背景：1. GIL是什么？ GIL的全称是Global Interpreter Lock(全局解释器锁)，来源是python设计之初的考虑，为了数据安全所做的决定。

2017-10-25 15:25:12 1327

原创【爬虫学习6】爬虫自动获取并使用代理ip

当同一ip短时间内多次链接同一网站，很可能导致ip被封，所以需要利用代理ip防止封禁。代理ip可以通过百度很容易的获取，于是这里使用Requests自动爬取代理网站上的ip，并验证是否可用，最后在利用代理建立一个简单的爬虫。-本文全部代码见于我的Git主要思路1.从代理网站爬取IP地址及端口号并存储2.验证ip能否使用3.格式化ip地址4.在requests中使用代理ip爬网站

2017-10-24 16:45:29 10009 1

原创【爬虫学习5】使用BeautifulSoup改进对知乎的爬取

在上一篇文章“使用selenium爬取知乎timeline“时，碰到一个问题：知乎的timeline中得news有三类：这三类都是分别包含在<div class='Card TopstoryItem TopstoryItem--experimentExpand TopstoryItem--experimentButton'>...</div>这样一个card里面，但是div内部具体实

2017-10-22 16:20:00 711

原创【爬虫学习4】Python爬取动态页面思路（二）

在前之前文章中尝试用简单的Requests爬取知乎timeline时发现动态加载内容无法成功爬取，尝试分析数据包来爬取也没有成功，于是最后在这里使用selenium来尝试，终于成功。全部代码见于我的[Git](https://github.com/EmpGro/Selsnium4Zhihu)

2017-10-20 16:05:06 685

原创【爬虫学习3】Python爬取动态页面思路（一）

之前在爬取知乎timeline内容时，因为动态加载只爬取到了少量内容，于是研究了下对动态加载页面的爬取。这篇文章主要是对非加密的ajax异步加载内容的爬取，顺便加入了一些json的知识。然鹅很不幸知乎是加密的，所以这个办法并不能解决问题。计划试试selenium+PhantomJS来解决知乎的问题，这个就看下一篇文章了。全部代码见于我的GitHub页面

2017-10-16 17:13:18 4050 1

原创【爬虫学习2】Requests cookies爬取知乎个人timeline

上次用Requests爬取了静态网页-正则表达式加Requests爬取猫眼电影排行这次想尝试使用requests.Session进行cookie登录爬取网页内容 -全部代码见于我的Git准备素材新建工程及文件获取cookies和headers编写爬虫载入并格式化cookis载入并格式化headers获取网页并保存保存网页的目的一个注意正则表达式匹配一小技巧获取结

2017-10-04 13:01:05 958

原创【爬虫学习1】正则表达式加Requests爬取猫眼电影排行

正则表达式加Requests爬取猫眼电影排行学习慕课网视频的课后总结http://study.163.com/course/courseMain.htm?courseId=1003735019正则表达式加Requests爬取猫眼电影排行Requests获取网页数据正则表达式匹配数据正则表达式学习参看这里数据格式化多页面爬取保存为文件Requests获取网页数据运用Requests获

2017-09-28 16:21:08 1635

转载常见的http响应头内容介绍

下面是一些最常见的请求头 Accept：浏览器可接受的MIME类型。Accept-Charset：浏览器可接受的字符集。Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。Accept-Language：浏览器所希望的语言种类，当服务器能够

2017-09-27 13:54:26 2110

转载 http中get post简析

Http定义了与服务器交互的不同方法，最基本的方法有4种，分别是GET，POST，PUT，DELETE。URL全称是资源描述符，我们可以这样认为：一个URL地址，它用于描述一个网络上的资源，而HTTP中的GET，POST，PUT，DELETE就对应着对这个资源的查，改，增，删4个操作。到这里，大家应该有个大概的了解了，GET一般用于获取/查询资源信息，而POST一般用于更新资源信息。　　1.根

2017-09-27 11:09:30 357

转载布隆过滤器(Bloom Filter)原理及python实现

布隆过滤器布隆过滤器是一种概率空间高效的数据结构。它与hashmap非常相似，用于检索一个元素是否在一个集合中。它在检索元素是否存在时，能很好地取舍空间使用率与误报比例。正是由于这个特性，它被称作概率性数据结构（probabilistic data structure）。空间效率我们来仔细地看看它的空间效率。如果你想在集合中存储一系列的元素，有很多种不同的做法。你可以把数据存储在has

2017-09-27 10:02:53 1936 1

转载 python队列操作

创建一个“队列”对象import Queuemyqueue = Queue.Queue(maxsize = 10)Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。将一个值放入队列中myqueue.put(10)调用队列对象的put()方法在

2017-09-27 09:35:03 7037

EmpGro的博客