- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 python 爬虫 scrapy框架的详细使用
scrapy框架爬取内容详细介绍:scrapy: python开发的一个快速、高层次的屏幕抓取和web抓取框架,简单,方便,易上手一、scrapy 的工作流程1、引擎从调度器中取出一个URL链接(url)用来接下来的爬取2、引擎把URL封装成一个Request请求传给下载器,下载器把资源下下来,并封装成应答包Response3、爬虫解析Response4、若是解析出实体(Item),...
2018-09-27 22:33:08 18773 2
原创 python 爬虫 excel的各种存储和读取方法
python爬虫的各种存储方式之3.Excel文档的存储和读取判断目录,有则打开,没有新建import osif os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') os.chdir('D:\Python\代码\数...
2018-09-24 23:38:44 2686 1
原创 python 爬虫 csv文档的存储和读取
python爬虫的各种存储方式之csv2.csv的存储和读取判断目录,有则打开,没有新建import csvimport os#判断目录,有则打开,没有新建if os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') ...
2018-09-24 13:22:25 1452 1
原创 python 爬虫 txt文档的读取和写入
python爬虫的各种存储方式之txt简单下载一个图片:from urllib import requesturl="http://pic.netbian.com/uploads/allimg/180912/221007-15367614072cc2.jpg"request.urlretrieve(url,"冰岛瀑布.jpg") #下载和存放存入txt判断目录,有则打开,没有新建i...
2018-09-24 13:04:02 3773 2
原创 python 爬虫 css提取网页内容
四大提取网页内容的基本方法之4.css提取网页内容 语法简单一览CSS选择器用于选择你想要的元素的样式的模式。"CSS"列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。在使用css之前需要把文本转换成一个对象如:from scrapy.selector import Selectorselector = Selector(text=html) #转换成一个对象...
2018-09-24 10:18:55 6035 1
原创 python爬虫 selector xpath提取网页内容
提取 网页内容 四大基本方法之3.xpath提取网页内容 selector模块XML 节点选择表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元...
2018-09-24 09:05:46 17765
原创 python 爬虫 提取文本之BeautifulSoup详细用法
提取 网页内容 四大基本方法之2.beautifulsoup的使用 bs4模块准备代码信息,用来练习获取内容:from bs4 import BeautifulSoup#准备代码信息,用来练习获取内容html ='''<html><head><title>The Dormouse's story</title&
2018-09-23 20:24:20 32130 3
原创 python 爬虫 正则表达式的详细使用
提取 网页内容 四大基本方法之1.正则表达式 re模块表达式说明[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个[af0-9]a-f,0-9中的一个[ab][cd][12]三个中分别选出一个来.任意字符\.表示真实意义的.\d表示一个数字,相当于[0-9]\D一个非数字\w一个...
2018-09-23 14:26:03 2051 1
原创 python 爬虫 访问网页之request与requests:
标签(空格分隔): 9.23一、访问获取网页的基本方法:准备头部和代理user_agent = [ #准备头部,列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mo...
2018-09-23 13:19:20 4341
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人