Python爬虫与算法进阶-CSDN博客

原创 AutoJs+mitmproxy App爬虫

AutoJs介绍官方文档：https://hyb1996.github.io/AutoJs-Docs/#/Github：https://github.com/hyb1996/Auto.j...

2020-05-31 22:13:48 3835 2

原创分布式全站爬虫——以"搜狗电视剧"为例

先看看robots协议User-agent:*Allow:/Sitemap:http://kan.sogou.com/sitemap/sitemap.xml牛皮！分析打开...

2020-04-11 19:29:42 519 1

原创 7月总结

2019年下半年，也就是7月1日，我入职了拼多多。算起来到现在已经4周了，想记录下现在到这边来的感受。工作先说下在这边的工作，爬虫只是一方面，数据下游还有很长的应用链，用...

2019-07-27 22:08:06 301

原创拼多多&网易爬虫面试（已拿到offer）

拼多多爬虫工程师面试题电话面：http协议、tcp协议(几次握手)top命令Linu/Mac 下虚拟内存（Swap）线程、进程、协程Async 相关、事件驱动相关阻塞、非阻塞Python...

2019-06-24 11:29:00 1651 1

原创【面试高频问题】线程、进程、协程

需要先对 IO 的概念有一定的认识: IO在计算机中指Input/Output，也就是输入和输出。并发与并行并发：在操作系统中，某一时间段，几个程序在同一个CPU上运行，但在任意一个时间...

2019-06-17 11:05:51 327

原创 TSDK：淘宝开放平台或淘宝登录爬取

分享一个开源项目：TSDK。地址在阅读原文里。TSDK淘宝爬虫SDK，用于淘宝开放平台或淘宝登录爬取淘宝系列爬虫系列SDKSDK更新到第二版，对一部分进行了优化优化掉通用类，此类本身最开...

2019-06-10 21:11:00 1483 1

原创 scrapy的errback

在scrapy我们可以设置一些参数，如DOWNLOAD_TIMEOUT，一般我会设置为10，意思是请求下载时间最大是10秒，文档介绍如果下载超时会抛出一个错误，比如说defst...

2019-05-23 21:53:20 1341

原创 cURL——爬虫开发神器

cURL是一个利用URL语法在命令行下工作的文件传输工具，1997年首次发行。它支持文件上传和下载，所以是综合传输工具，但按传统，习惯称cURL为下载工具。cURL还包含了用于程序开发的...

2019-05-16 21:18:00 1177

原创 Python - 描述器

很多时候我们可能需要对某个实例的属性加上除了修改、访问之外的其他处理逻辑，例如类型检查、数值校验等，就需要用到描述器 ---《Python Cookbook》我们可以使用 Pytho...

2019-05-05 21:00:00 149

原创【源码解读】如何充分发挥 Scrapy 的异步能力

作为一个易上手的高性能爬虫框架，Scrapy 使用 Twisted 异步网络框架处理并发请求。但是，在日常工作和面试过程中，经常发现有些同学会笃定地认为 Scrapy 采用的是多线程并发...

2019-04-28 12:07:00 856

原创 Docker通过EFK（Elasticsearch + Fluentd + Kibana）查询日志

这篇文章主要是参考Docker Logging via EFK (Elasticsearch + Fluentd + Kibana) Stack with Docker Compose，...

2019-04-20 20:56:27 289

原创拉勾反爬

问题最近很多人都在问拉勾反爬是怎么回事，简单说下。拉勾职位数据都在Ajax加载中，每一个请求都会携带上一次返回的cookies。我们来做个试验，先在浏览器中打开该网址：`https://...

2019-04-13 12:34:00 222

原创对第一份工作的总结

有段时间没写东西了，如果你在萌新群里，应该知道我最近换工作的事。简单说，就是辞去了北京的工作，在杭州找到了新工作。看到手里的离职证明，想着还是写点什么，记录下我毕业后的第一份工作，在这里...

2019-04-07 15:02:14 201

原创 scrapy去重与scrapy_redis去重与布隆过滤器

在开始介绍scrapy的去重之前，先想想我们是怎么对requests对去重的。requests只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列...

2019-03-26 19:28:00 217

原创 TensorFlow 验证码识别

验证码可以说是爬虫中最常见的，本次介绍的方法可以处理如下简单的验证码：可以观察到，此类验证码特点明显，4位数字，每个数字所处位置固定。主要分为四步：样本数据创建训练数据跑模型，现在全是数...

2019-03-15 23:24:14 216

原创数据采集从入门到放弃第二章：HTTP协议介绍

第二章主要是讲了些HTTP协议相关，属于基础知识，关于这块，有一本书比较收到好评，叫做《图解HTTP》，公众号后台回复“http”可以观看。目录：HTTP协议HTTP的特性HTTP报文会...

2019-03-04 22:43:13 256

原创 Python 中的黑暗角落（三）：模块与包

如果你用过 Python，那么你一定用过import关键字加载过各式各样的模块。但你是否熟悉 Python 中的模块与包的概念呢？或者，以下几个问题，你是否有明确的答案？什么是模块？...

2019-03-01 21:14:16 128

原创 MongoDB参数限制和阀值

今天搜索spark mongo的资料，意外发现了MongoDB的一些知识，这些都是之前没有接触过的，所以专门记录下。一、BSON文档 1、BSON文档尺寸：一个document文档...

2019-02-28 20:25:53 173

原创 Python 中的黑暗角落（二）：生成器协程的调度问题

前作介绍了 Python 中的yield关键字。此篇介绍如何使用yield表达式，在 Python 中实现一个最基本的协程调度示例，避免 I/O 操作占用大量 CPU 计算时间。...

2019-02-27 21:55:50 142

原创 Python 中的黑暗角落（一）：理解 yield 关键字

Python 是非常灵活的语言，其中yield关键字是普遍容易困惑的概念。此篇将介绍yield关键字，及其相关的概念。迭代、可迭代、迭代器迭代（iteration）与可迭代（it...

2019-02-24 22:33:04 129

原创使用pyppeteer淘宝登录

现在淘宝的商品搜索页必须要登录才能见，所以必须要cookies才能进行下一步操作。本期介绍如何使用pyppeteer登录淘宝，获取Cookies。pyppeteer介绍地址：https:...

2019-02-17 16:12:05 516

原创数据采集从入门到放弃【介绍】

花了两天时间研究了下，最终确定写一个关于爬虫教程，名字叫做数据采集从入门到放弃，会寄托在Github Pages上，使用mkdocs创作和管理。源码：https://github.com...

2019-02-16 11:24:24 196

原创说点什么

过年这些天，公众号没怎么发文，有很多原因，主要还是因为自己懒。期间也发生了很多有趣的事，今天就来说说。带女朋友回家。认识她有一年了，今天过年就带回家了，父母也挺满意。家在湖北，别的都好，...

2019-02-13 23:10:51 97

原创【Github】程序员找工作黑名单

近期Github上出现了一个热门的repo，介绍是：????程序员找工作黑名单，换工作和当技术合伙人需谨慎啊更新有赞我觉得有点意思，所有分享下给你们，希望你们看了之后心里有点数。???...

2019-02-03 10:00:00 821

原创 scrapy自定义重试方法

Scrapy是自带有重试的，但一般是下载出错才会重试，当然你可以在Middleware处来完成你的逻辑。这篇文章主要介绍的是如何在spider里面完成重试。使用场景比如，我解析json出...

2019-01-25 23:37:55 900

原创刷题之合并K个排序链表

题目：合并k个排序链表，返回合并后的排序链表。示例:输入:[1->4->5,1->3->4,2->6]输出:1->1->2-&...

2019-01-22 21:27:29 199

原创用Golang写爬虫（一）

前言近期有些项目需要用到Golang，大概花了一周来看语法，然后就开始看爬虫相关的。这里记录下如何使用Golang来写爬虫的几个步骤，最终完成的效果如下图环境安装比较简单sudoapt...

2019-01-16 21:47:49 463

原创 Python重试的几种方法

没人能保证自己的的程序没BUG，所以重试非常有必要。下面说下我知道的几种Python重试方法。装饰器这是最最简单的重试方法，而且有现成的轮子，推荐两个：1. retrying2. ten...

2019-01-14 22:12:28 551

原创大佬的话（一）

关于如何使用Requests这应该算是最频繁使用的第三方库了，经常写法如下：而我也这样使用了很长一段时间，直到有一次遇到了一个问题：程序一直卡在这里，没有任务输出，刚开始想是不是head...

2019-01-11 23:35:26 170

原创 Github私有仓库免费，会对开源有影响吗

昨天，Github放了大招，个人开发者可以免费创建无限制的私有仓库，价格如下图变化对个人开发者来说，新增`Unlimited private repositories`，也就是无限的私有...

2019-01-09 21:19:49 917

原创 pyspark操作MongoDB

有几点需要注意的：不要安装最新的pyspark版本，请安装`pip3 install pyspark==2.3.2``spark-connector`与平常的MongoDB写法不同，格式...

2019-01-03 22:37:59 413

原创斗鱼弹幕爬虫

效果如下默认数据会保存到MongoDB，以房间号+时期目前是保存了弹幕和礼物两种类型，斗鱼的弹幕协议已经公开，想要抓取更多信息的可以去看看。可以用如下语句查询礼物送出记录：db.getC...

2019-01-02 23:10:02 488 1

原创 TopK大问题的另一种解法

不久前介绍了堆排序Python堆排序之heapq，主要是解决下面这个题目在未排序的数组中找到第 k 个最大的元素。请注意，你需要找的是数组排序后的第 k 个最大的元素，而不是第 k 个不...

2018-12-25 23:00:48 89

原创 Chrome断点JS寻找淘宝签名sign

写了这篇文章淘宝sign加密算法之后，很多人问我Chrome断点调试怎么做，今天会尽量详细聊聊。如果你用使用过Pycharm的断点，会更好理解。文章中图片很多，如果看不清楚，可以在阅读...

2018-12-22 01:15:09 537 1

原创 MongoDB保存数据的优化方法

这两天频繁遇到MongoDB插入数据的问题，这里记录下。问题描述：我有多个线程在抓数据，每天数据里有含有多个文档（Document），使用Pymongo的插入方法，逐条插入。形如下def...

2018-12-18 20:57:38 167

原创 video-to-ascii：在命令行中看视频

最近GitHub上有个很好玩的项目，叫做video-to-ascii。这是一个简单的python包，可以使用字符作为像素在终端中播放视频。安装：pip3installvideo-to...

2018-12-11 22:47:08 1417

原创 Python堆排序之heapq

Python中的堆排序heapq模块实现了Python中的堆排序，并提供了有关方法。让用Python实现排序算法有了简单快捷的方式。heapq的官方文档和源码：Heap queue al...

2018-12-05 23:38:13 269

原创萌新刷题之跳跃游戏

题目：给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个位置。示例1:输入:[2,3,1,1,4]输出:...

2018-12-03 23:42:12 96

原创 2018，还剩下一个月了。

想想时间过得真快，转眼之间2018年快要结束了。可是仿佛自己才刚刚毕业，还是那个懵懂的少年，对未来还没有任何打算。突然间就感觉需要背负起很多很多责任，赚钱买房、养家糊口。。（压力啊）想着...

2018-12-01 23:47:48 95

原创介绍一个文本提取库 —— Goose

goose3主要用于新闻、文章的主要信息提取。GOOSE将尝试提取以下信息：文章主文文章图片文章中的YouTube / Vimeo视频描述标记标签使用pip安装pipinstallg...

2018-11-29 23:05:00 558

空空如也

空空如也