自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

转载 Scrapy爬虫的优化

依靠scrapy提供的相关参数进行优化 setting.py文件选项 说明 CONCURRENT_REQUESTS Downloader最大并发请求下载树立,默认32 CONCURRENT_ITE...

2018-11-29 02:40:00 77

转载 爬虫:股票数据Scrapy爬虫实例

功能描述*技术路线:scrapy*目标:获取上交所和深交所所有的股票的名称和交易信息*输出:保存到文件中数据网站的确定,和之前博客相同:https://blog.csdn.net/qq_36949176/article/details/84487150实例编写:步骤步骤1:建立工程和Spider模板cmd命...

2018-11-29 02:33:00 127

转载 python爬虫学习笔记六:Scrapy爬虫的使用步骤

步骤1:创建一个工程和Spider模板步骤2:编写Spider步骤3:编写Item Pipeline步骤4:优化配置策略Scrapy爬虫的数据类型Request类class scrapy.http.Request()*Request对象表示一个HTTP请求*由Spider生成,由Downloader执行...

2018-11-29 01:12:00 150

转载 爬虫:Scrapy爬取第一个网页实例解析

演示HTML地址演示HTML页面地址:https://python123.io/ws/demo.html文件名称:demo.html产生步骤步骤1:建立一个Scrapy爬虫工程生成工程目录代码(CMD):scrapy startproject python123demo生成的工程目录python123de...

2018-11-29 00:50:00 420

转载 爬虫:Scrapy常用命令

Scrapy常用命令命令 说明 格式 startproject 创建一个新工程 scrapy startproject<name>[dir] genspider ...

2018-11-26 20:37:00 110

转载 Scrapy爬虫框架结构以及和Requests库的比较

爬虫框架*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合*爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫Scrapy爬虫框架结构"5+2"结构Spiders(用户提供Url、以及解析内容)、Item pipelines(对提取的信息进行处理)模块需要用户编写(配置)其他模块:Engine、Scheduler...

2018-11-26 19:14:00 216

转载 Scrapy爬虫框架的安装

我们直接用pip安装Scrapy的话,会发生错误,提示构建twisted时安装失败,或者提示安装 Microsoftvisual c++14.0 的一个库。运行pip install Scrapy时候提示Twisted安装失败所以我们就得按着提示,哪个组件失败了就手动去安装哪个(这里是Twisted)相关组件。提示安装Micro...

2018-11-26 12:32:00 84

转载 爬虫:股票数据定向爬虫

功能描述*目标:获取上交所和深交所所有股票的名称和交易信息*输出:保存到文件中*技术路线:requests-bs4-re候选数据网站的选择:新浪股票:https://finance.sina.com.cn/stock/百度股票:https://gupiao.baidu.com/stock/股票代码一览表:htt...

2018-11-25 15:24:00 240

转载 爬虫:淘宝商品信息定向爬虫

功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口 翻页的处理技术路线:requests-re准备,安排!我们先搜索:裙子,查看浏览器返回的链接信息起始页:https://s.taobao.com/search?q=裙子&imgfile=&am...

2018-11-24 21:12:00 372

转载 爬虫:Re库的贪婪匹配和最小匹配

贪婪匹配Re库默认采用贪婪匹配,即输出匹配最长的子串。>>> import re>>> match=re.search(r'PY.*N','PYANBNCNDN')>>> match.group(0)'PYANBNCNDN'最小匹配如何输出最短的子串呢?对!那...

2018-11-24 18:10:00 148

转载 爬虫:Re库的match对象

Match对象的属性属性 说明 .string 待匹配的文本 .re 匹配时使用的pattern对象(正则表达式) .pos 正则表达式搜索文本的开始位置(第几个位置,一般为0...

2018-11-24 17:58:00 87

转载 python爬虫学习笔记五:Re库的介绍和使用

Re库介绍Re库是Python的标准库,主要用于字符串匹配。调用方式:import re正则表达式的表示类型*raw string 类型(原生字符串类型):re库采用raw string类型表示正则表达式,表示为:r'text'例如:r'[1-9]\d{5}'r'\d{3}-\d{8}|\d{4}-\d{7...

2018-11-24 17:02:00 434

转载 爬虫:正则表达式

正则表达式regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式‘PY’ ‘PYY’ 'PYYY' 'PYYYY' 可表示为PY+'PY'开头 ,后续存在不多于10个字符后续字符不能是‘P’或‘Y’ 可用正则表达式表示:PY[^PY]{0,10}正则表...

2018-11-21 15:12:00 91

转载 爬虫:中国大学排名定向爬虫实例

实例最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述:输入大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:仅对输入URL进行爬取,不扩展爬取bs4只能获取静态url信息...

2018-11-21 08:29:00 383

转载 爬虫:基于bs4库的html内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)返回一个列表类型,存储查找的结果。name:对标签名称的检索字符串attrs:对标签属性值得检索字符串,可标注属性检索recursive:是对子孙全部检索,默认True调用tag的find_all()方法时...

2018-11-20 22:49:00 394

转载 爬虫:信息提取的一般方法

信息提取的一般方法方法一:完整解析信息的标记形式,再提取关键信息。XML JSON YAML需要标记解析器 例如:bs4库的标签树遍历优点:信息解析准确缺点:提取过程繁琐,速度慢方法二:无视标记形式,直接搜索关键信息。搜索对信息的文本查找函数即可优点:提取过程简洁,速度快缺点:提取结果准确性与...

2018-11-20 21:21:00 213

转载 各种信息标记形式HTML\XML\JSON\YAML

HTML就不做介绍了,太熟悉了,就是用各种标签进行标记XML以标签为主,来构建信息表达信息用于Internet上的信息交互与传递和Html非常接近,是Html的扩展XML学习教程:http://www.runoob.com/xml/xml-tutorial.html<img src="china.jpg"...

2018-11-20 10:14:00 260

转载 python爬虫学习笔记四:BeautifulSoup库对HTML文本进行操作

只要你提供的信息是标签,就可以很好的解析怎么使用BeautifulSoup库?from bs4 import BeautifulSoupsoup=BeautifulSoup('<p>data<p>','html.parser')例如:import requestsr=requests.get("...

2018-11-19 11:19:00 169

转载 爬虫:ip地址查询代码

首先,我们找到一个能输入ip查询ip信息的网站,如ip138.com我们先随便输入一个ip,进行查询,得到的返回链接格式如:http://www.ip138.com/ips138.asp?ip=你要查询的ip地址接着我们就可以采用这个格式得到查看返回的网页的ip信息了代码如下import requestsurl="htt...

2018-11-18 13:59:00 296

转载 python爬虫学习笔记三:图片爬取

图片爬取的代码r.content 文件的二进制格式Python引入了with语句来自动帮我们调用close()方法:open(path, ‘-模式-‘,encoding=’UTF-8’)w:以写方式打开,a:以追加模式打开 (从 EOF 开始, 必要时创建新文件)r+:以读写模式打开w+:以读写模式打开 (参见 w...

2018-11-18 13:40:00 119

转载 爬虫:模拟浏览器对网站内容进行爬取

对于一些保护比较好的网站,他能识别你是用requests库对其进行访问,所以有些网站会禁止你用python对其进行访问所以我们可以修改发送给网站的头部信息,伪造浏览器对网站进行访问查看我们发送给网站的头部信息:r.request.headerskv={'user-agent':'Mozilla/5.0'} // 修改访...

2018-11-17 22:06:00 269

转载 python爬虫学习笔记二:Requests库详解及HTTP协议

Requests库的安装:https://mp.csdn.net/postedit/83715574r=requests.get(url,params=None,**kwargs)这个r是Response对象url :拟获取页面的url链接params:url中的额外参数,字典或字节流格式,可选**kwargs:12个...

2018-11-17 21:22:00 162

转载 如何彻底的关闭Window自动更新?

win10固然好用,但是对于一些比较老的电脑,更新可不是什么好事,他会导致一系列问题,比如卡机、蓝屏、系统崩溃等等,开启Windows自动更新,每次开机的时候还得等待系统更新,如果Windows在我们着急用电脑的时候,突然更新,那是一年非常糟糕的事情。所以关闭Windows自动更新,有点必要。但是大家在关闭Windows自动更新的时...

2018-11-09 14:34:00 247

转载 网页页面预加载动画的实现,加载后隐藏

我们做webapp的时候,可以做一个页面加载广告,在你网页加载的时候,先出现一段gif动图或者是海报。下面是实现页面加载动画的代码首先js代码的实现(function($){ $(window).load(function(){ $('#begin').fadeOut(); $('#l...

2018-11-09 13:38:00 551

转载 U盘重装系统教程与电脑开机密码清除

最近的WIN10更新,对于一些老旧的电脑,总会发生蓝屏的情况,万一电脑蓝屏了,开不了机,我们这时候就需要用到U盘来重装系统了。重装系统我们这里主要介绍2017年之后出的电脑通用重装系统步骤,早期的电脑的步骤由于硬件差异需要修改bios配置,对于比较老版本的电脑重装系统有问题可以在文章后面评论,博主看到后会及时给予帮助。要重装系...

2018-11-04 18:23:00 277

转载 python爬虫学习笔记一:爬虫学习概览与Requests库的安装与使用

python网络爬虫与信息提取学习目录:the website is the APIRequests:自动爬取HTML页面自动网络请求提交robots.txt:网络爬虫排除标准Beautiful Soup:解析HTML页面正则表达式详解,提取页面关键信息ReScrapy*:网络爬虫原理介绍、专业爬虫框架介绍...

2018-11-04 16:24:00 163

转载 Python环境变量的配置

python下载安装好了之后,在cmd窗口里面,我们输入python,提示找不到该命令,这时候我们需要配置环境变量我们找到我们安装python的目录,至于怎么找到python的安装目录?我们在win10里面可以搜索python,然后出现之后右键,打开文件位置,这时候打开的是快捷方式地址目录,我们再次右键打开文件地址,即可进入pytho...

2018-11-04 15:03:00 1240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除