自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 python爬虫之使用Scrapy框架编写爬虫

转自:http://www.jb51.net/article/57183.htm前面的文章我们介绍了Python爬虫框架Scrapy的安装与配置等基本资料,本文我们就来看看如何使用Scrapy框架方便快捷的抓取一个网站的内容,随便选个小站(dmoz.org)来示例吧网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提...

2018-04-24 19:35:41 951

原创 正则表达式的使用举例re

#encoding=utf-8 # 密码:hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse # 答案:I love you #正则表达式 import re secret_code = 'hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse' #.的使用举例 # a = '...

2018-04-24 16:18:28 267

原创 制作爬虫文本

#encoding=utf-8 import re import requests #读取源代码文件 f = open('source.txt','r') html = f.read() f.close() #匹配图片网址 pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S) i = 0 for each in...

2018-04-24 16:14:07 185

原创 正则表达式举例

#encoding=utf-8 import re # html里是文本里的内容 f = open('text.txt','r') html = f.read() f.close # #爬取标题 # # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高 # title = re.search('<title>(.*?)&...

2018-04-24 16:12:33 126

原创 百度贴吧爬虫

#encoding=utf-8 #目标网站:http://tieba.baidu.com/p/3522395718 #跟帖用户名,跟帖内容,跟帖时间 #涉及知识:Requests获取网页,xpath提取内容,map实现多线程爬虫 from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import r...

2018-04-24 16:09:56 134

原创 python并行化

#encoding=utf-8 from multiprocessing.dummy import Pool as ThreadPool #导入pool类,命名为ThreadPool import requests import time def getsource(url): html = requests.get(url) urls = [] for i in range(1,2...

2018-04-24 16:09:23 347

原创 XPath特殊应用

#encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> </hea

2018-04-24 16:08:26 128

原创 XPath与多线程爬虫

#encoding=utf-8 #在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息; #神器XPath的介绍与配置 #首先要说的是XPath数据类型。XPath可分为四种数据类型: # 节点集(node-set...

2018-04-24 16:07:32 149

原创 极客学院课程爬虫

#encoding=utf-8 #目标网站http://www.jikexueyuan.com/course/ # 目标内容:课程名称,课程介绍,课程时间,课程等级,学习人数 # 涉及的知识:requests获取网页,re.sub翻页,正则表达式匹配内容。 import requests import re #因为在Windows系统下,命令提示符默认的编码是GBK,而HTML中utf-8,编...

2018-04-24 16:05:16 337

转载 Python中列表的del, remove, pop操作的区别

首先,remove 是删除首个符合条件的元素。并不是删除特定的索引。如下例:>>> a = [0, 2, 2, 3] >>> a.remove(2) >>> a [0, 2, 3]而对于 del 来说,它是根据索引(元素所在位置)来删除的,如下例:>>> a = [3, 2, 2, 1] >>> de

2018-04-03 21:09:26 304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除