2018年09月_squabLi

11月 10月 09月

原创 python 爬虫 scrapy框架的详细使用

scrapy框架爬取内容详细介绍：scrapy: python开发的一个快速、高层次的屏幕抓取和web抓取框架,简单，方便，易上手一、scrapy 的工作流程1、引擎从调度器中取出一个URL链接（url）用来接下来的爬取2、引擎把URL封装成一个Request请求传给下载器，下载器把资源下下来，并封装成应答包Response3、爬虫解析Response4、若是解析出实体（Item）,...

2018-09-27 22:33:08 18773 2

原创 python 爬虫 excel的各种存储和读取方法

python爬虫的各种存储方式之3.Excel文档的存储和读取判断目录，有则打开，没有新建import osif os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') os.chdir('D:\Python\代码\数...

2018-09-24 23:38:44 2686 1

原创 python 爬虫 csv文档的存储和读取

python爬虫的各种存储方式之csv2.csv的存储和读取判断目录，有则打开，没有新建import csvimport os#判断目录，有则打开，没有新建if os.path.exists('D:\Python\代码\数据爬取'): os.chdir('D:\Python\代码\数据爬取')else: os.mkdir('D:\Python\代码\数据爬取') ...

2018-09-24 13:22:25 1452 1

原创 python 爬虫 txt文档的读取和写入

python爬虫的各种存储方式之txt简单下载一个图片：from urllib import requesturl="http://pic.netbian.com/uploads/allimg/180912/221007-15367614072cc2.jpg"request.urlretrieve(url,"冰岛瀑布.jpg") #下载和存放存入txt判断目录，有则打开，没有新建i...

2018-09-24 13:04:02 3773 2

原创 python 爬虫 css提取网页内容

四大提取网页内容的基本方法之4.css提取网页内容语法简单一览CSS选择器用于选择你想要的元素的样式的模式。"CSS"列表示在CSS版本的属性定义（CSS1，CSS2，或对CSS3）。在使用css之前需要把文本转换成一个对象如：from scrapy.selector import Selectorselector = Selector(text=html) #转换成一个对象...

2018-09-24 10:18:55 6035 1

原创 python爬虫 selector xpath提取网页内容

提取网页内容四大基本方法之3.xpath提取网页内容 selector模块XML 节点选择表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元...

2018-09-24 09:05:46 17765

原创 python 爬虫提取文本之BeautifulSoup详细用法

提取网页内容四大基本方法之2.beautifulsoup的使用 bs4模块准备代码信息，用来练习获取内容:from bs4 import BeautifulSoup#准备代码信息，用来练习获取内容html ='''&lt;html&gt;&lt;head&gt;&lt;title&gt;The Dormouse's story&lt;/title&

2018-09-23 20:24:20 32130 3

原创 python 爬虫正则表达式的详细使用

提取网页内容四大基本方法之1.正则表达式 re模块表达式说明[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个[af0-9]a-f,0-9中的一个[ab][cd][12]三个中分别选出一个来.任意字符\.表示真实意义的.\d表示一个数字，相当于[0-9]\D一个非数字\w一个...

2018-09-23 14:26:03 2051 1

原创 python 爬虫访问网页之request与requests：

标签（空格分隔）： 9.23一、访问获取网页的基本方法：准备头部和代理user_agent = [ #准备头部，列表 &quot;Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50&quot;, &quot;Mo...

2018-09-23 13:19:20 4341

python爬虫之css选择器

python爬虫 css提取网页内容的详细方法，有助于新手可以轻松上手，内容简单易懂，轻松掌握css的使用

2018-09-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人