2018年04月_hhyiyuanyu

转载 python爬虫之使用Scrapy框架编写爬虫

转自：http://www.jb51.net/article/57183.htm前面的文章我们介绍了Python爬虫框架Scrapy的安装与配置等基本资料，本文我们就来看看如何使用Scrapy框架方便快捷的抓取一个网站的内容，随便选个小站（dmoz.org）来示例吧网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，但是使用框架可以大大提...

2018-04-24 19:35:41 951

原创正则表达式的使用举例re

#encoding=utf-8 # 密码：hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse # 答案：I love you #正则表达式 import re secret_code = 'hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse' #.的使用举例 # a = '...

2018-04-24 16:18:28 267

原创制作爬虫文本

#encoding=utf-8 import re import requests #读取源代码文件 f = open('source.txt','r') html = f.read() f.close() #匹配图片网址 pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S) i = 0 for each in...

2018-04-24 16:14:07 185

原创正则表达式举例

#encoding=utf-8 import re # html里是文本里的内容 f = open('text.txt','r') html = f.read() f.close # #爬取标题 # # 需要寻找的<title>只出现一次，search()只返回第一个匹配的元素，不用遍历全部，效率更高 # title = re.search('<title>(.*?)&...

2018-04-24 16:12:33 126

原创百度贴吧爬虫

#encoding=utf-8 #目标网站：http://tieba.baidu.com/p/3522395718 #跟帖用户名，跟帖内容，跟帖时间 #涉及知识：Requests获取网页,xpath提取内容，map实现多线程爬虫 from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import r...

2018-04-24 16:09:56 134

原创 python并行化

#encoding=utf-8 from multiprocessing.dummy import Pool as ThreadPool #导入pool类，命名为ThreadPool import requests import time def getsource(url): html = requests.get(url) urls = [] for i in range(1,2...

2018-04-24 16:09:23 347

原创 XPath特殊应用

#encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> </hea

2018-04-24 16:08:26 128

原创 XPath与多线程爬虫

#encoding=utf-8 #在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，当然也能分析html结构)，利用其lxml.html的xpath对html进行分析，获取抓取信息; #神器XPath的介绍与配置 #首先要说的是XPath数据类型。XPath可分为四种数据类型： # 节点集（node-set...

2018-04-24 16:07:32 149

原创极客学院课程爬虫

#encoding=utf-8 #目标网站http://www.jikexueyuan.com/course/ # 目标内容：课程名称，课程介绍，课程时间，课程等级，学习人数 # 涉及的知识：requests获取网页，re.sub翻页，正则表达式匹配内容。 import requests import re #因为在Windows系统下，命令提示符默认的编码是GBK，而HTML中utf-8，编...

2018-04-24 16:05:16 337

转载 Python中列表的del, remove, pop操作的区别

首先，remove 是删除首个符合条件的元素。并不是删除特定的索引。如下例：>>> a = [0, 2, 2, 3] >>> a.remove(2) >>> a [0, 2, 3]而对于 del 来说，它是根据索引（元素所在位置）来删除的，如下例：>>> a = [3, 2, 2, 1] >>> de

2018-04-03 21:09:26 304

hhyiyuanyu的博客