- 博客(10)
- 收藏
- 关注
转载 python爬虫之使用Scrapy框架编写爬虫
转自:http://www.jb51.net/article/57183.htm前面的文章我们介绍了Python爬虫框架Scrapy的安装与配置等基本资料,本文我们就来看看如何使用Scrapy框架方便快捷的抓取一个网站的内容,随便选个小站(dmoz.org)来示例吧网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提...
2018-04-24 19:35:41 951
原创 正则表达式的使用举例re
#encoding=utf-8 # 密码:hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse # 答案:I love you #正则表达式 import re secret_code = 'hadkfalifexxlxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse' #.的使用举例 # a = '...
2018-04-24 16:18:28 267
原创 制作爬虫文本
#encoding=utf-8 import re import requests #读取源代码文件 f = open('source.txt','r') html = f.read() f.close() #匹配图片网址 pic_url = re.findall('img src="(.*?)" class="lessonimg"',html,re.S) i = 0 for each in...
2018-04-24 16:14:07 185
原创 正则表达式举例
#encoding=utf-8 import re # html里是文本里的内容 f = open('text.txt','r') html = f.read() f.close # #爬取标题 # # 需要寻找的<title>只出现一次,search()只返回第一个匹配的元素,不用遍历全部,效率更高 # title = re.search('<title>(.*?)&...
2018-04-24 16:12:33 126
原创 百度贴吧爬虫
#encoding=utf-8 #目标网站:http://tieba.baidu.com/p/3522395718 #跟帖用户名,跟帖内容,跟帖时间 #涉及知识:Requests获取网页,xpath提取内容,map实现多线程爬虫 from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import r...
2018-04-24 16:09:56 134
原创 python并行化
#encoding=utf-8 from multiprocessing.dummy import Pool as ThreadPool #导入pool类,命名为ThreadPool import requests import time def getsource(url): html = requests.get(url) urls = [] for i in range(1,2...
2018-04-24 16:09:23 347
原创 XPath特殊应用
#encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> </hea
2018-04-24 16:08:26 128
原创 XPath与多线程爬虫
#encoding=utf-8 #在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息; #神器XPath的介绍与配置 #首先要说的是XPath数据类型。XPath可分为四种数据类型: # 节点集(node-set...
2018-04-24 16:07:32 149
原创 极客学院课程爬虫
#encoding=utf-8 #目标网站http://www.jikexueyuan.com/course/ # 目标内容:课程名称,课程介绍,课程时间,课程等级,学习人数 # 涉及的知识:requests获取网页,re.sub翻页,正则表达式匹配内容。 import requests import re #因为在Windows系统下,命令提示符默认的编码是GBK,而HTML中utf-8,编...
2018-04-24 16:05:16 337
转载 Python中列表的del, remove, pop操作的区别
首先,remove 是删除首个符合条件的元素。并不是删除特定的索引。如下例:>>> a = [0, 2, 2, 3] >>> a.remove(2) >>> a [0, 2, 3]而对于 del 来说,它是根据索引(元素所在位置)来删除的,如下例:>>> a = [3, 2, 2, 1] >>> de
2018-04-03 21:09:26 304
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人