2019年01月_锅巴QAQ

原创第8章验证码的识别---1、图形验证码的识别+2、极验验证码的识别

图形验证码一般是4位字母或者数字。这类验证码利用OCR识别技术识别。需要python库为tesserocr，其需要tesseract的支持，后者下载链接：https://github.com/tesseract-ocr/tesseract下载完成后，安装过程中，需要注意，要勾选：Additional language data download 选项来安装 OCR 识别支持的语言包。接下来...

2019-01-28 11:41:30 1250

原创第7章动态渲染页面的爬取---1、Selenium的使用

除了Ajax这种JavaScript动态渲染的页面外，还要一些，比如分页部分由JavaScript生成，并非原始HTML代码，还有的比如淘宝页面，即使是Ajax获取数据，但其接口含有加密参数，很难爬取。但是我们找到了：Selenium、Splash、PyV8、Ghost等，实现了可见即可爬取。Selenium，可以驱动浏览器进行点击、下拉等操作，还做到可见即可爬取。首先，安装Seleniu...

2019-01-26 19:36:13 319 1

原创第6章 Ajax数据爬取

有些网页可以正常看到，但requests得到的页面却不一样。因为requests得到原始html文档，然而有些内容（比如Ajax）通过浏览器展示的是经过JavaScript处理数据后生成的结果。数据来源无非有下面几种：Ajax加载、包含在html文档内、经过JavaScript渲染。requests获得的就是包含在html文档内的，倘若遇到页面内容是经过JavaScript处理的结果呢？那么就需要...

2019-01-26 10:24:04 241

原创第4章解析库的使用---Beautiful soup

Beautiful Soup支持的解析器包括：HTML、XML和html5lib，但我们推荐使用lxml解析器，因为其解析器有解析HTML和XML的功能，速度快，容器能力强。from bs4 import BeautifulSoup# 使用时，将第二个参数设置为lxml即可;html是HTML字符串soup=BeautifulSoup(html,'lxml')#prettify()方法...

2019-01-24 17:36:35 585

原创第4章解析库的使用---Xpath

lxml、Beautiful Soup、pyquery三个解析库1、使用XPathXML Path Language，XML路径语言。举例：//title[@lang='eng']，选择所有名称为title，属性lang的值为eng的节点。from lxml import etree# 导入lxml库中的etree模块html=etree.HTML(text)# 调用...

2019-01-21 22:10:27 306

原创快速排序+改进版（邓俊辉老师讲授）

课程链接地址：https://www.bilibili.com/video/av22774520快速排序是另一个分而治之排序算法。归并排序的重点在于合并，快速排序的重点在于分。（红色为每一次选取的候选轴点）对于一个数组，起始为lo，结束为hi，轴点为pivot。通过每次选取不同的轴点，将轴点移动至某一位置，使得满足下述条件。那么如何分呢？重点在于寻找轴点轴点需要满足的条件：其左侧元...

2019-01-11 22:01:37 1535

锅巴

原创第8章验证码的识别---1、图形验证码的识别+2、极验验证码的识别

原创第7章动态渲染页面的爬取---1、Selenium的使用

原创第6章 Ajax数据爬取

原创第4章解析库的使用---Beautiful soup

原创第4章解析库的使用---Xpath

原创快速排序+改进版（邓俊辉老师讲授）

chromedriver_linux64.zip

空空如也

原创 第8章 验证码的识别---1、图形验证码的识别+2、极验验证码的识别

原创 第7章 动态渲染页面的爬取---1、Selenium的使用

原创 第6章 Ajax数据爬取

原创 第4章 解析库的使用---Beautiful soup

原创 第4章 解析库的使用---Xpath

原创 快速排序+改进版（邓俊辉老师讲授）

chromedriver_linux64.zip

空空如也

原创第8章验证码的识别---1、图形验证码的识别+2、极验验证码的识别

原创第7章动态渲染页面的爬取---1、Selenium的使用

原创第6章 Ajax数据爬取

原创第4章解析库的使用---Beautiful soup

原创第4章解析库的使用---Xpath

原创快速排序+改进版（邓俊辉老师讲授）