自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

原创 python 爬虫 scrapy框架的详细使用

scrapy框架爬取内容详细介绍:scrapy: python开发的一个快速、高层次的屏幕抓取和web抓取框架,简单,方便,易上手一、scrapy 的工作流程1、引擎从调度器中取出一个URL链接(url)用来接下来的爬取2、引擎把URL封装成一个Request请求传给下载器,下载器把资源下下来,并封装成应答包Response3、爬虫解析Response4、若是解析出实体(Item),...

2018-09-27 22:33:08 18773 2

原创 python 爬虫 excel的各种存储和读取方法

python爬虫的各种存储方式之3.Excel文档的存储和读取判断目录,有则打开,没有新建import osif os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') os.chdir('D:\Python\代码\数...

2018-09-24 23:38:44 2686 1

原创 python 爬虫 csv文档的存储和读取

python爬虫的各种存储方式之csv2.csv的存储和读取判断目录,有则打开,没有新建import csvimport os#判断目录,有则打开,没有新建if os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') ...

2018-09-24 13:22:25 1452 1

原创 python 爬虫 txt文档的读取和写入

python爬虫的各种存储方式之txt简单下载一个图片:from urllib import requesturl="http://pic.netbian.com/uploads/allimg/180912/221007-15367614072cc2.jpg"request.urlretrieve(url,"冰岛瀑布.jpg") #下载和存放存入txt判断目录,有则打开,没有新建i...

2018-09-24 13:04:02 3773 2

原创 python 爬虫 css提取网页内容

四大提取网页内容的基本方法之4.css提取网页内容 语法简单一览CSS选择器用于选择你想要的元素的样式的模式。"CSS"列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。在使用css之前需要把文本转换成一个对象如:from scrapy.selector import Selectorselector = Selector(text=html) #转换成一个对象...

2018-09-24 10:18:55 6035 1

原创 python爬虫 selector xpath提取网页内容

提取 网页内容 四大基本方法之3.xpath提取网页内容 selector模块XML 节点选择表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元...

2018-09-24 09:05:46 17765

原创 python 爬虫 提取文本之BeautifulSoup详细用法

提取 网页内容 四大基本方法之2.beautifulsoup的使用 bs4模块准备代码信息,用来练习获取内容:from bs4 import BeautifulSoup#准备代码信息,用来练习获取内容html ='''<html><head><title>The Dormouse's story</title&

2018-09-23 20:24:20 32130 3

原创 python 爬虫 正则表达式的详细使用

提取 网页内容 四大基本方法之1.正则表达式 re模块表达式说明[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个[af0-9]a-f,0-9中的一个[ab][cd][12]三个中分别选出一个来.任意字符\.表示真实意义的.\d表示一个数字,相当于[0-9]\D一个非数字\w一个...

2018-09-23 14:26:03 2051 1

原创 python 爬虫 访问网页之request与requests:

标签(空格分隔): 9.23一、访问获取网页的基本方法:准备头部和代理user_agent = [ #准备头部,列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50", "Mo...

2018-09-23 13:19:20 4341

python爬虫之css选择器

python爬虫 css提取网页内容的详细方法,有助于新手可以轻松上手,内容简单易懂,轻松掌握css的使用

2018-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除