2017年10月_Nick_Spider

12月 11月 10月 08月 06月

原创 python工程师（web开发和爬虫方向）-面试经历

一、这家公司主要对亚马逊商品进行数据采集，问的问题比较杂。是否了解线程的同步和异步？是否了解网络的同步和异步？链表和顺序表储存时各自有什么优点？使用redis搭建分布式系统时如何处理网络延迟和网络异常？数据仓库是什么？假设有一个爬虫，从网络上获取数据的频率快，本地写入数据的频率慢，使用什么数据结构好？你是否了解谷歌的无头浏览器？你是否了解MySQL数据库的几种引擎？redis数据库

2017-10-19 22:57:06 32776

原创基于python的验证码生成与识别1—生成简单的验证码

最近爬虫的时候经常遇到验证码，想着干脆就花点时间去学习一下如何识别验证码，顺便在这里记录一下过程，方便以后翻阅。识别验证码的主要过程为：1. 图像预处理二值化，去噪等2. 图像分割把验证码分割单个字符3. 图像识别输出图像对应的字符目前接触到图像识别方法是Tesseract，KNN分类算法，AI 与向量空间图像识别算法（http://www.jb5

2017-10-14 00:06:33 31688

原创使用phantomjs访问网站，高度自定义headers

由于在遇到的一个网站需要cookie才能访问成功，所以研究了一下如何给phantomjs设置cookie。既然能设置cookie，那么其余的头信息应该也能设置，下面就给大家说明如何实现。下面是我们要附带给phantomjs浏览器的headers信息。headers = { 'accept': "text/html,application/xhtml+xml,applicat

2017-10-13 23:42:02 31897

原创使用selenium操作PhantomJS的常用操作

采集淘宝商品数据的时候，主要用到了Selenium+PhantomJS。在这个过程中对淘宝的严厉反爬措施佩服至极，个人也得到了很多成长。虽然历经曲折，最终还是能正常运行自己的脚本采集数据。这里总结一下Selenium+PhantomJS使用中常用的操作。设置等待时间隐式等待，等同于time.sleep()driver.implicitly_wait(40)

2017-10-13 23:40:34 34752

原创五种使用python储存数据的方式

在python编程开发中，总是不可避免的遇到数据储存的问题，下面就介绍python与几种数据储存方式交互的方法。json文件json是一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示数据。层次结构简洁而清晰，易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。最主要的是，通过json这个包可以很方便的解决无论是py2还是p

2017-10-13 23:38:10 111616

原创 python2内置库urllib2的主要知识点

python2内置的urllib2库，对于做网络爬虫有非常强大的功能，主要用在发送http请求，伪造头信息等方面。而urllib一般与之搭配着用，主要用于进行url解码和编码，通俗讲也就是将浏览器地址栏里面出现的中文转换为url编码再发送出去，以便服务器能识别。导入包import urllibimport urllib2第一步，我们要构造基本请求，获得

2017-10-13 23:35:05 27809

python_计算机视觉_文本识别_图像识别.zip

python_计算机视觉_文本识别_图像识别.zip python_计算机视觉_文本识别_图像识别.zip

2019-08-20

如何建立自己的代理IP池，并持续维护？

2017-10-16

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 python工程师（web开发和爬虫方向）-面试经历

原创 基于python的验证码生成与识别1—生成简单的验证码

原创 使用phantomjs访问网站，高度自定义headers

原创 使用selenium操作PhantomJS的常用操作

原创 五种使用python储存数据的方式