爬虫
zhisheng_blog
这个作者很懒,什么都没留下…
展开
-
_compile(pattern, flags).findall(string) TypeError: cannot use a string pattern on a bytes-like
最近在自学python,做的一个图片爬虫,却出现一些错误,特此总结下来,为了别人遇到同样错误时可以快速解决同样的问题。#coding=utf-8import urllibimport urllib.requestimport reurl = "http://tieba.baidu.com/p/2460150866"page = urllib.request.urlopen(url)html原创 2016-08-17 10:54:31 · 66460 阅读 · 18 评论 -
Python爬虫入门——URLError异常处理
Python爬虫入门五之URLError异常处理1. URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码URLError.py中,我们需要用try-except语句来包围并捕获相应的异常。#-*-coding:utf8-*-#created by 10412import urllib2request = urllib原创 2016-08-18 16:44:40 · 2431 阅读 · 0 评论 -
Python爬虫入门——正则表达式
Python爬虫入门之正则表达式在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1. 了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字原创 2016-08-25 14:37:45 · 1320 阅读 · 0 评论 -
Python爬虫实战之爬取糗事百科段子
Python爬虫实战之爬取糗事百科段子完整代码地址:Python爬虫实战之爬取糗事百科段子程序代码详解:Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子。包含的信息有作者名称,觉得好笑人数,评论人数,发布的内容。如果发布的内容中含有图片的话,则过滤图片,内容依然显示出来。Spider2-qiushibaike.py:在Spider1-qiushibaike.py基础原创 2016-08-25 15:38:30 · 3127 阅读 · 0 评论 -
Pyspider框架 —— Python爬虫实战之爬取 V2EX 网站帖子
背景:PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。在线示例: http://demo.pyspider.org/官方文档: http://docs.pyspider.org/en/latest/ Github : https://github原创 2016-10-22 20:28:29 · 8831 阅读 · 2 评论 -
HTTP 599: SSL certificate problem: unable to get local issuer certificate错误
自己在用 PySpider 框架爬虫运行代码后时出现 HTTP 599: SSL certificate problem: unable to get local issuer certificate错误完整报错信息: HTTP 599: SSL certificate problem: unable to get local issuer certificate [E 161018 21原创 2016-10-18 22:05:04 · 21049 阅读 · 10 评论 -
Pyspider 框架学习时走过的一些坑
背景:自己在做一个 V2EX 爬虫的时候,需要把爬取的帖子中的内容( title 和 content)保存在本地数据库。 环境:Pycharm 2016.1 + MySQL 5.7 + Pyspider + MySQL workbench + python 2.7 32位1. windows下安装MySQLdb出现的问题及其解决方法你有两个选择:安装已编译好的版本(一分钟)原创 2016-10-20 22:42:26 · 9634 阅读 · 5 评论 -
Python爬虫实战之爬取百度贴吧帖子
Python爬虫实战之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件1. URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/313原创 2016-09-28 09:02:29 · 11773 阅读 · 5 评论