自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

锅巴

一生只做一件事

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 第8章 验证码的识别---1、图形验证码的识别+2、极验验证码的识别

图形验证码一般是4位字母或者数字。这类验证码利用OCR识别技术识别。需要python库为tesserocr,其需要tesseract的支持,后者下载链接:https://github.com/tesseract-ocr/tesseract下载完成后,安装过程中,需要注意,要勾选:Additional language data download 选项来安装 OCR 识别支持的语言包。接下来...

2019-01-28 11:41:30 1250

原创 第7章 动态渲染页面的爬取---1、Selenium的使用

除了Ajax这种JavaScript动态渲染的页面外,还要一些,比如分页部分由JavaScript生成,并非原始HTML代码,还有的比如淘宝页面,即使是Ajax获取数据,但其接口含有加密参数,很难爬取。但是我们找到了:Selenium、Splash、PyV8、Ghost等,实现了可见即可爬取。Selenium,可以驱动浏览器进行点击、下拉等操作,还做到可见即可爬取。首先,安装Seleniu...

2019-01-26 19:36:13 319 1

原创 第6章 Ajax数据爬取

有些网页可以正常看到,但requests得到的页面却不一样。因为requests得到原始html文档,然而有些内容(比如Ajax)通过浏览器展示的是经过JavaScript处理数据后生成的结果。数据来源无非有下面几种:Ajax加载、包含在html文档内、经过JavaScript渲染。requests获得的就是包含在html文档内的,倘若遇到页面内容是经过JavaScript处理的结果呢?那么就需要...

2019-01-26 10:24:04 241

原创 第4章 解析库的使用---Beautiful soup

Beautiful Soup支持的解析器包括:HTML、XML和html5lib,但我们推荐使用lxml解析器,因为其解析器有解析HTML和XML的功能,速度快,容器能力强。from bs4 import BeautifulSoup# 使用时,将第二个参数设置为lxml即可;html是HTML字符串soup=BeautifulSoup(html,'lxml')#prettify()方法...

2019-01-24 17:36:35 585

原创 第4章 解析库的使用---Xpath

lxml、Beautiful Soup、pyquery三个解析库1、使用XPathXML Path Language,XML路径语言。举例://title[@lang='eng'],选择所有名称为title,属性lang的值为eng的节点。from lxml import etree# 导入lxml库中的etree模块html=etree.HTML(text)# 调用...

2019-01-21 22:10:27 306

原创 快速排序+改进版(邓俊辉老师讲授)

课程链接地址:https://www.bilibili.com/video/av22774520快速排序是另一个分而治之排序算法。归并排序的重点在于合并,快速排序的重点在于分。(红色为每一次选取的候选轴点)对于一个数组,起始为lo,结束为hi,轴点为pivot。通过每次选取不同的轴点,将轴点移动至某一位置,使得满足下述条件。那么如何分呢?重点在于寻找轴点轴点需要满足的条件:其左侧元...

2019-01-11 22:01:37 1535

chromedriver_linux64.zip

chromedrive

2017-08-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除