爬虫
文章平均质量分 79
AoboSir
这个作者很懒,什么都没留下…
展开
-
Learning Python 008 正则表达式-001
Python 正则表达式这节课讲讲正真使用的技术 — 正真表达式。文本爬虫什么是正则表达式正则表达式这个名词听起来就有一种很官方的感觉,但是它是一个很很很有用的技术。我用语言是不能形容它的。那举个例子好了。下面是一段加密的文本:sdajksdhfakjldooxxIxxoosdsdsdmknmdsdooxxamxxoodsddjksdjooxxAoboxxoodsddsddkjlooxxSirxxo原创 2016-07-16 20:50:09 · 15470 阅读 · 0 评论 -
Learning Python 008 正则表达式-004 sub()方法
Python 正则表达式 — sub()方法sub()方法sub()方法:替换符合规律的内容,返回替换的值# -?- coding: utf-8 -?-import resecret_code = 'wwwfhskdjwww'secret_code_new = re.sub('www(.*?)www', 'www.aobosir.www', secret_code )print(secret_c原创 2016-07-17 00:00:42 · 17488 阅读 · 0 评论 -
Python3 大型网络爬虫实战 — 给 scrapy 爬虫项目设置为防反爬
原博文链接:http://www.aobosir.com/blog/2016/12/06/python3-large-web-crawler-scrapy-project-Anti-reptile-settings/开发环境Python第三方库:lxml、Twisted、pywin32、scrapyPython 版本:python-3.5.0-amd64PyCharm软件版本:pycharm-原创 2016-12-06 00:09:38 · 18053 阅读 · 0 评论 -
Python3 解决编码问题: UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position
原博文链接:http://www.aobosir.com/blog/2016/12/08/python3-UnicodeEncodeError-gbk-codec-can’t-encode-character-xa9/开发环境Python第三方库:lxml、Twisted、pywin32、scrapyPython 版本:python-3.5.0-amd64PyCharm软件版本:pycharm原创 2016-12-08 06:50:49 · 29797 阅读 · 2 评论 -
解决问题: pywin32 安装后出现 import win32api ImportError DLL load failed
执行 scrapy bench 命令时 出现错误。(之前安装了pywin32库)Traceback (most recent call last): File "c:\users\aobo\appdata\local\programs\python\python35\lib\site-packages\twisted\internet\defer.py", line 1260, in _inli原创 2016-11-26 07:07:39 · 29686 阅读 · 2 评论 -
Python --- Scrapy 命令
Scrapy 命令 分为两种:全局命令 和 项目命令。全局命令:在哪里都能使用。项目命令:必须在爬虫项目里面才能使用。全局命令C:\Users\AOBO>scrapy -hScrapy 1.2.1 - no active projectUsage: scrapy <command> [options] [args]Available commands: bench Run原创 2016-11-26 06:57:34 · 12562 阅读 · 0 评论 -
Python3 大型网络爬虫实战 001 --- 搭建开发环境
我使用的电脑: Windows 10 64位前言开发Python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件。 相信有些朋友玩过Python的urllib模块,一般我们可以用该模块写一些爬虫文件,实现起来非常方便,但做大型项目的时候,会发现效率不是太好、并且程序的稳定性也不是太好。 Scrapy是一个Python的爬虫框架,使用Scrapy可以提高开发效率,并且非常原创 2016-11-26 06:46:47 · 49944 阅读 · 0 评论 -
Python3 大型网络爬虫实战 002 --- scrapy 爬虫项目的创建及爬虫的创建 --- 实例:爬取百度标题和CSDN博客
开发环境Python第三方库:lxml、Twisted、pywin32、scrapyPython 版本:python-3.5.0-amd64PyCharm软件版本:pycharm-professional-2016.1.4电脑系统:Windows 10 64位如果你还没有搭建好开发环境,请到这篇博客:。1 知识点:scrapy 爬虫项目的创建及爬虫的创建1.1 scrapy 爬虫项目的创建原创 2016-11-26 18:35:29 · 17631 阅读 · 0 评论 -
Python 网络爬虫 006 (编程) 解决下载(或叫:爬取)到的网页乱码问题
解决下载(或叫:爬取)到的网页乱码问题使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3上一节,我介绍了如何下载网页。这样节我们来讲:如果我们下载一个带有中文的网站原创 2016-09-13 20:57:02 · 26049 阅读 · 2 评论 -
关闭是否只查看安全传送的网页内容提示框 和 是否允许运行软件,如ActiveX控件和插件提示框
关闭是否只查看安全传送的网页内容提示框最新编写 爬虫程序,运行程序后,电脑就总是出现下面这个提示框,一遍遍点“是”或“否”繁琐又麻烦。我看得有点不耐烦了。于是就想个办法不让这个提示框总是出来提示。解决办法:启动 Internet Explorer 浏览器:对于这个提示框。点击 否然后弹出下面的提示框,点击 “是” 就可以:之后就不会再出现了下面这个窗口了:但是会出现另外一个问题:电脑之后就一次出现这原创 2016-09-19 20:35:29 · 20271 阅读 · 0 评论 -
Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件
解析 robots.txt 文件使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 前言之前,我在网络爬虫科普的时候,介绍过robots.txt 文件,如果你原创 2016-09-19 15:19:04 · 22990 阅读 · 0 评论 -
Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
通过 正则表达式 来获取一个网页中的所有的 URL链接,并下载这些 URL链接 的源代码使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 前言通过之前两节(原创 2016-09-19 14:48:48 · 26343 阅读 · 0 评论 -
Learning Python 008 正则表达式-002 findall()方法
Python 正则表达式 findall()方法重点 findall()方法的使用 — 程序讲解简单的符号的使用正则表达式的库文件是re,先导入库文件:import re.的使用举例# -?- coding: utf-8 -?-import rea = 'abca123'b = re.findall('a.', a)print(b)输出['ab', 'a1'].是一个占位符,我们将程序改成原创 2016-07-16 22:52:29 · 16321 阅读 · 0 评论 -
Learning Python 008 正则表达式-003 search()方法
Python 正则表达式 — search()方法search()函数的使用# -?- coding: utf-8 -?-import resecret_code = 'dsdxx1xxdsdfxx2xxdfsdxx3xxdlrelxx4xxeuwuxx5xxnjkjh'b = re.search('xx(.*?)xxdsdfxx(.*?)xx', secret_code )print(b)运原创 2016-07-16 23:46:05 · 15610 阅读 · 0 评论 -
Python 网络爬虫 004 (编程) 如何编写一个网络爬虫,来下载(或叫:爬取)一个站点里的所有网页
爬取目标站点里所有的网页使用的系统:Windows 10 64位 Python语言版本:Python 3.5.0 V 使用的编程Python的集成开发环境:PyCharm 2016 04一 . 首先你要知道如何编写一个可以下载一个网页的网络爬虫请见博客:如何编写一个可以 下载一个网页 的网络爬虫。二 . 教你三种方法,来爬取目标站点中所有的网页方法一: 使用 目标站点的网络地图文件 来爬取里面的原创 2016-09-09 13:14:37 · 16269 阅读 · 0 评论 -
Python 网络爬虫 005 (编程) 如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫
如何编写一个可以 下载(或叫:爬取)一个网页 的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 简介编写网络爬虫的第一步就是下载网页,这个过程叫做原创 2016-09-09 18:16:55 · 19831 阅读 · 1 评论 -
Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
通过网站地图爬取目标站点的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 前言通过前两节(爬取一个网页 的网络爬虫 和 解决爬取到的网页显示时乱原创 2016-09-14 13:20:11 · 23597 阅读 · 3 评论 -
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介1. 网络爬虫是干什么的我举几个生活中的例子:例子一: 我平时会将 学到的知识 和 积累的经验 写成博客发送到CSDN博客网站上,那么对于我写的Blender 3D 建模方面的博文,里面有很多的图片。如果我要发布一篇 Blender 3D 建模的博文的话,图片要一张一张的上传,上传的速度有时也是很慢,整个发表一遍这样的博文,我光 上传图片 就要原创 2016-09-02 21:53:11 · 15198 阅读 · 0 评论 -
Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页
通过 ID索引号 遍历目标网页里链接的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 前言通过之前两节(爬取一个网页 的网络爬虫 和 解决爬取到原创 2016-09-14 21:30:35 · 18441 阅读 · 0 评论 -
Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识
网站站点的背景调研1. 检查 robots.txt网站都会定义robots.txt 文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了,这个限制仅仅只是一个建议,你可以遵守,也可以不遵守。但对于一个良好的网民来说,最好还是遵守robots.txt 文件里面的限制。Q: 如何查看这个 robots.txt 文件? A: 你只需要在 目标网站站点域名 后面加上 robots.txt原创 2016-09-04 11:53:51 · 19852 阅读 · 3 评论 -
Python 安装 第三方库的安装技巧
Python 安装 第三方库的安装技巧Windows 10 64位。 Python 3.5.0:1. 使用 pip 命令行工具在线下载你需要的第三方库2. 手动下载 第三方库,再使用 `pip` 命令安装 Could not find a version that satisfies the requirement opencv (from versions: )No matching distr原创 2016-08-14 11:31:55 · 126351 阅读 · 13 评论