自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

崔斯特的博客

人生苦短,我学Python

  • 博客(109)
  • 收藏
  • 关注

原创 AutoJs+mitmproxy App爬虫

AutoJs介绍官方文档:https://hyb1996.github.io/AutoJs-Docs/#/Github:https://github.com/hyb1996/Auto.j...

2020-05-31 22:13:48 3458 2

原创 分布式全站爬虫——以"搜狗电视剧"为例

先看看robots协议User-agent:*Allow:/Sitemap:http://kan.sogou.com/sitemap/sitemap.xml牛皮!分析打开...

2020-04-11 19:29:42 459 1

原创 7月总结

2019年下半年,也就是7月1日,我入职了拼多多。算起来到现在已经4周了,想记录下现在到这边来的感受。工作先说下在这边的工作,爬虫只是一方面,数据下游还有很长的应用链,用...

2019-07-27 22:08:06 202

原创 拼多多&网易爬虫面试(已拿到offer)

拼多多爬虫工程师面试题电话面:http协议、tcp协议(几次握手)top命令Linu/Mac 下虚拟内存(Swap)线程、进程、协程Async 相关、事件驱动相关阻塞、非阻塞Python...

2019-06-24 11:29:00 1512 1

原创 【面试高频问题】线程、进程、协程

需要先对 IO 的概念有一定的认识: IO在计算机中指Input/Output,也就是输入和输出。并发与并行并发:在操作系统中,某一时间段,几个程序在同一个CPU上运行,但在任意一个时间...

2019-06-17 11:05:51 254

原创 TSDK:淘宝开放平台或淘宝登录爬取

分享一个开源项目:TSDK。地址在阅读原文里。TSDK淘宝爬虫SDK,用于淘宝开放平台或淘宝登录爬取淘宝系列爬虫系列SDKSDK更新到第二版,对一部分进行了优化优化掉通用类,此类本身最开...

2019-06-10 21:11:00 1351 1

原创 scrapy的errback

在scrapy我们可以设置一些参数,如DOWNLOAD_TIMEOUT,一般我会设置为10,意思是请求下载时间最大是10秒,文档介绍如果下载超时会抛出一个错误,比如说defst...

2019-05-23 21:53:20 1246

原创 cURL——爬虫开发神器

cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的...

2019-05-16 21:18:00 1090

原创 Python - 描述器

很多时候我们可能需要对某个实例的属性加上除了修改、访问之外的其他处理逻辑,例如 类型检查、数值校验等,就需要用到描述器 ---《Python Cookbook》我们可以使用 Pytho...

2019-05-05 21:00:00 101

原创 【源码解读】如何充分发挥 Scrapy 的异步能力

作为一个易上手的高性能爬虫框架,Scrapy 使用 Twisted 异步网络框架处理并发请求。但是,在日常工作和面试过程中,经常发现有些同学会笃定地认为 Scrapy 采用的是多线程并发...

2019-04-28 12:07:00 729

原创 Docker通过EFK(Elasticsearch + Fluentd + Kibana)查询日志

这篇文章主要是参考Docker Logging via EFK (Elasticsearch + Fluentd + Kibana) Stack with Docker Compose,...

2019-04-20 20:56:27 227

原创 拉勾反爬

问题最近很多人都在问拉勾反爬是怎么回事,简单说下。拉勾职位数据都在Ajax加载中,每一个请求都会携带上一次返回的cookies。我们来做个试验,先在浏览器中打开该网址:`https://...

2019-04-13 12:34:00 166

原创 对第一份工作的总结

有段时间没写东西了,如果你在萌新群里,应该知道我最近换工作的事。简单说,就是辞去了北京的工作,在杭州找到了新工作。看到手里的离职证明,想着还是写点什么,记录下我毕业后的第一份工作,在这里...

2019-04-07 15:02:14 140

原创 scrapy去重与scrapy_redis去重与布隆过滤器

在开始介绍scrapy的去重之前,先想想我们是怎么对requests对去重的。requests只是下载器,本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列...

2019-03-26 19:28:00 155

原创 TensorFlow 验证码识别

验证码可以说是爬虫中最常见的,本次介绍的方法可以处理如下简单的验证码:可以观察到,此类验证码特点明显,4位数字,每个数字所处位置固定。主要分为四步:样本数据创建训练数据跑模型,现在全是数...

2019-03-15 23:24:14 158

原创 数据采集从入门到放弃 第二章:HTTP协议介绍

第二章主要是讲了些HTTP协议相关,属于基础知识,关于这块,有一本书比较收到好评,叫做《图解HTTP》,公众号后台回复“http”可以观看。目录:HTTP协议HTTP的特性HTTP报文会...

2019-03-04 22:43:13 196

原创 Python 中的黑暗角落(三):模块与包

如果你用过 Python,那么你一定用过import关键字加载过各式各样的模块。但你是否熟悉 Python 中的模块与包的概念呢?或者,以下几个问题,你是否有明确的答案?什么是模块?...

2019-03-01 21:14:16 88

原创 MongoDB参数限制和阀值

今天搜索spark mongo的资料,意外发现了MongoDB的一些知识,这些都是之前没有接触过的,所以专门记录下。一、BSON文档 1、BSON文档尺寸:一个document文档...

2019-02-28 20:25:53 125

原创 Python 中的黑暗角落(二):生成器协程的调度问题

前作介绍了 Python 中的yield关键字。此篇介绍如何使用yield表达式,在 Python 中实现一个最基本的协程调度示例,避免 I/O 操作占用大量 CPU 计算时间。...

2019-02-27 21:55:50 101

原创 Python 中的黑暗角落(一):理解 yield 关键字

Python 是非常灵活的语言,其中yield关键字是普遍容易困惑的概念。此篇将介绍yield关键字,及其相关的概念。迭代、可迭代、迭代器迭代(iteration)与可迭代(it...

2019-02-24 22:33:04 82

原创 使用pyppeteer淘宝登录

现在淘宝的商品搜索页必须要登录才能见,所以必须要cookies才能进行下一步操作。本期介绍如何使用pyppeteer登录淘宝,获取Cookies。pyppeteer介绍地址:https:...

2019-02-17 16:12:05 441

原创 数据采集从入门到放弃【介绍】

花了两天时间研究了下,最终确定写一个关于爬虫教程,名字叫做数据采集从入门到放弃,会寄托在Github Pages上,使用mkdocs创作和管理。源码:https://github.com...

2019-02-16 11:24:24 145

原创 说点什么

过年这些天,公众号没怎么发文,有很多原因,主要还是因为自己懒。期间也发生了很多有趣的事,今天就来说说。带女朋友回家。认识她有一年了,今天过年就带回家了,父母也挺满意。家在湖北,别的都好,...

2019-02-13 23:10:51 62

原创 【Github】程序员找工作黑名单

近期Github上出现了一个热门的repo,介绍是:????程序员找工作黑名单,换工作和当技术合伙人需谨慎啊 更新有赞我觉得有点意思,所有分享下给你们,希望你们看了之后心里有点数。???...

2019-02-03 10:00:00 730

原创 scrapy自定义重试方法

Scrapy是自带有重试的,但一般是下载出错才会重试,当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如,我解析json出...

2019-01-25 23:37:55 821

原创 刷题之合并K个排序链表

题目:合并k个排序链表,返回合并后的排序链表。示例:输入:[1->4->5,1->3->4,2->6]输出:1->1->2-&...

2019-01-22 21:27:29 151

原创 用Golang写爬虫(一)

前言近期有些项目需要用到Golang,大概花了一周来看语法,然后就开始看爬虫相关的。这里记录下如何使用Golang来写爬虫的几个步骤,最终完成的效果如下图环境安装比较简单sudoapt...

2019-01-16 21:47:49 395

原创 Python重试的几种方法

没人能保证自己的的程序没BUG,所以重试非常有必要。下面说下我知道的几种Python重试方法。装饰器这是最最简单的重试方法,而且有现成的轮子,推荐两个:1. retrying2. ten...

2019-01-14 22:12:28 497

原创 大佬的话(一)

关于如何使用Requests这应该算是最频繁使用的第三方库了,经常写法如下:而我也这样使用了很长一段时间,直到有一次遇到了一个问题:程序一直卡在这里,没有任务输出,刚开始想是不是head...

2019-01-11 23:35:26 121

原创 Github私有仓库免费,会对开源有影响吗

昨天,Github放了大招,个人开发者可以免费创建无限制的私有仓库,价格如下图变化对个人开发者来说,新增`Unlimited private repositories`,也就是无限的私有...

2019-01-09 21:19:49 720

原创 pyspark操作MongoDB

有几点需要注意的:不要安装最新的pyspark版本,请安装`pip3 install pyspark==2.3.2``spark-connector`与平常的MongoDB写法不同,格式...

2019-01-03 22:37:59 336

原创 斗鱼弹幕爬虫

效果如下默认数据会保存到MongoDB,以房间号+时期目前是保存了弹幕和礼物两种类型,斗鱼的弹幕协议已经公开,想要抓取更多信息的可以去看看。可以用如下语句查询礼物送出记录:db.getC...

2019-01-02 23:10:02 410 1

原创 TopK大问题的另一种解法

不久前介绍了堆排序Python堆排序之heapq,主要是解决下面这个题目在未排序的数组中找到第 k 个最大的元素。请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不...

2018-12-25 23:00:48 60

原创 Chrome断点JS寻找淘宝签名sign

写了这篇文章淘宝sign加密算法 之后,很多人问我Chrome断点调试怎么做,今天会尽量详细聊聊。如果你用使用过Pycharm的断点,会更好理解。文章中图片很多,如果看不清楚,可以在阅读...

2018-12-22 01:15:09 432 1

原创 MongoDB保存数据的优化方法

这两天频繁遇到MongoDB插入数据的问题,这里记录下。问题描述:我有多个线程在抓数据,每天数据里有含有多个文档(Document),使用Pymongo的插入方法,逐条插入。形如下def...

2018-12-18 20:57:38 126

原创 video-to-ascii:在命令行中看视频

最近GitHub上有个很好玩的项目,叫做video-to-ascii。这是一个简单的python包,可以使用字符作为像素在终端中播放视频。安装:pip3installvideo-to...

2018-12-11 22:47:08 1187

原创 Python堆排序之heapq

Python中的堆排序heapq模块实现了Python中的堆排序,并提供了有关方法。让用Python实现排序算法有了简单快捷的方式。heapq的官方文档和源码:Heap queue al...

2018-12-05 23:38:13 199

原创 萌新刷题之跳跃游戏

题目:给定一个非负整数数组,你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个位置。示例1:输入:[2,3,1,1,4]输出:...

2018-12-03 23:42:12 67

原创 2018,还剩下一个月了。

想想时间过得真快,转眼之间2018年快要结束了。可是仿佛自己才刚刚毕业,还是那个懵懂的少年,对未来还没有任何打算。突然间就感觉需要背负起很多很多责任,赚钱买房、养家糊口。。(压力啊)想着...

2018-12-01 23:47:48 65

原创 介绍一个文本提取库 —— Goose

goose3主要用于新闻、文章的主要信息提取。GOOSE将尝试提取以下信息:文章主文文章图片文章中的YouTube / Vimeo视频描述标记标签使用pip安装pipinstallg...

2018-11-29 23:05:00 456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除