
python爬虫
村头陶员外
B站,小红书,抖音等平台搜索 “Forrest的数据科学站”
展开
-
python爬虫-->验证码处理
在上一篇博文中,介绍了如何自动化的进行表单交互,但是我们是用手动进行网址注册账号的,然后用这个账号密码进行自动化交互。那么在上一篇博文中为何不去自动化的注册账号呢?因为通常在网站注册账号,需要输入图片中的验证码。本篇博文中,将详细介绍如何自动化的对验证码进行处理。本篇博文将从两个方面来对验证码进行处理利用OCR自动化处理验证码在线方式处理复杂验证码OCR自动化处理验证码 打开注册网页http原创 2017-07-11 10:11:53 · 5679 阅读 · 0 评论 -
python爬虫-->并发下载
为了提高爬虫的效率,我们可以采用多线程,多进程的爬取数据,本篇博文将主要讲解如何利用爬虫进行并发下载。我们可以利用浏览Alexa网址获取网站列表文件,该文件中含有最受欢迎的100万个网站列表。我们可以通过http://s3.amazonaws.com/alexa-static/top-1m.csv.zip直接下载这一列表压缩文件。下面我们分别利用单线程,多线程,多进程来下载上述文件内网址网页。并且对原创 2017-07-05 15:11:33 · 3064 阅读 · 0 评论 -
python爬虫-->下载缓存
上一篇博文中,我们讲解了如何从下载的网页中抓取自己感兴趣的数据,以及如何把获取的数据保存到表格中。但是如果我们突然又想抓取另外一个字段的数据,怎么办呢?不可能重新写程序,重新爬取吧?对于一个小型网站,我们可以重新抓取,但是对于一个拥有数百万个网站而言,重新爬取耗时太大。因此本博文提出对爬取的网页进行缓存的方案。前面我们在download网页时,每次下载都会throttle一下,如果我们已经有缓存,从原创 2017-07-03 13:25:07 · 3099 阅读 · 0 评论 -
python爬虫-->获取数据
在Python爬虫基础博文中,python爬虫基础,写了一个获取深度为maxdepth内所有url函数,并且下载其网页。那么这篇博文我将详细讲解如何从这些下载的网页中获取我们想要数据。首先我们先得对python正则表达式有所了解,打开这个网页查看python正则表达式 还需要对正则表达式里面一些常见的很容易混淆方法,例如re.search,re.match,有区别性的认识,打开这个网页查看Pyth原创 2017-06-26 21:33:47 · 1697 阅读 · 0 评论 -
python爬虫-->爬虫基础
在做机器学习,数据挖掘时,常常需要训练针对某个特定应用场景的模型,但是有时候又缺少我们想要的数据集,这个时候我们就要自己上某些特定的网站进行网络爬虫来获取大量数据。这也是我们学习python爬虫的一个动机和目标。 难点一:urllib2.urlopen与urllib2.request区别import urllib2response=urllib2.urlopen('http://www.exam原创 2017-05-25 11:27:39 · 1257 阅读 · 0 评论 -
python爬虫-->抓取动态内容
上几篇博文讲的都是关于抓取静态网页的相关内容,但是现在市面上绝大多数主流网站都在其重要功能中依赖JavaScript,使用JavaScript时,不再是加载后立即下载所有页面内容,这样就会造成许多网页在浏览器中展示的内容不会出现在html源码中。这时候再用前几篇博文中介绍的办法爬取来数据,得到的数据肯定为空。本篇博文将主要介绍对如动态网页应该如何进行爬取。这里我们将介绍两种办法来抓取动态网页数据原创 2017-07-07 14:09:08 · 4181 阅读 · 0 评论 -
python爬虫-->表单交互
前几篇博文中,我们的程序下载的静态网页总是返回相同的内容。在本篇博文中,我们将与网页进行交互,根据用户输入返回对应的内容。登录表单 打开网址http://example.webscraping.com/places/default/user/login,按F12,进入开发者模式。这里需要注意form标签的action,enctype,method属性以及两个input域。action:表示表单数据原创 2017-07-09 20:03:25 · 2024 阅读 · 0 评论