自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李谦的博客

流水不腐,户枢不蠹。一路前进。

  • 博客(6)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 python工程师(web开发和爬虫方向)-面试经历

一、这家公司主要对亚马逊商品进行数据采集,问的问题比较杂。是否了解线程的同步和异步?是否了解网络的同步和异步?链表和顺序表储存时各自有什么优点?使用redis搭建分布式系统时如何处理网络延迟和网络异常?数据仓库是什么?假设有一个爬虫,从网络上获取数据的频率快,本地写入数据的频率慢,使用什么数据结构好?你是否了解谷歌的无头浏览器?你是否了解MySQL数据库的几种引擎?redis数据库

2017-10-19 22:57:06 32776

原创 基于python的验证码生成与识别1—生成简单的验证码

最近爬虫的时候经常遇到验证码,想着干脆就花点时间去学习一下如何识别验证码,顺便在这里记录一下过程,方便以后翻阅。识别验证码的主要过程为:1. 图像预处理   二值化,去噪等2. 图像分割      把验证码分割单个字符3. 图像识别      输出图像对应的字符目前接触到图像识别方法是Tesseract,KNN分类算法,AI 与向量空间图像识别算法(http://www.jb5

2017-10-14 00:06:33 31688

原创 使用phantomjs访问网站,高度自定义headers

由于在遇到的一个网站需要cookie才能访问成功,所以研究了一下如何给phantomjs设置cookie。既然能设置cookie,那么其余的头信息应该也能设置,下面就给大家说明如何实现。下面是我们要附带给phantomjs浏览器的headers信息。headers = {    'accept': "text/html,application/xhtml+xml,applicat

2017-10-13 23:42:02 31897

原创 使用selenium操作PhantomJS的常用操作

采集淘宝商品数据的时候,主要用到了Selenium+PhantomJS。在这个过程中对淘宝的严厉反爬措施佩服至极,个人也得到了很多成长。虽然历经曲折,最终还是能正常运行自己的脚本采集数据。这里总结一下Selenium+PhantomJS使用中常用的操作。设置等待时间隐式等待,等同于time.sleep()driver.implicitly_wait(40)

2017-10-13 23:40:34 34752

原创 五种使用python储存数据的方式

在python编程开发中,总是不可避免的遇到数据储存的问题,下面就介绍python与几种数据储存方式交互的方法。json文件json是一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示数据。层次结构简洁而清晰,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。最主要的是,通过json这个包可以很方便的解决无论是py2还是p

2017-10-13 23:38:10 111616

原创 python2内置库urllib2的主要知识点

python2内置的urllib2库,对于做网络爬虫有非常强大的功能,主要用在发送http请求,伪造头信息等方面。而urllib一般与之搭配着用,主要用于进行url解码和编码,通俗讲也就是将浏览器地址栏里面出现的中文转换为url编码再发送出去,以便服务器能识别。导入包import urllibimport urllib2第一步,我们要构造基本请求,获得

2017-10-13 23:35:05 27809

python_计算机视觉_文本识别_图像识别.zip

python_计算机视觉_文本识别_图像识别.zip python_计算机视觉_文本识别_图像识别.zip

2019-08-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除