2018年11月_bakk0615

转载 Scrapy爬虫的优化

依靠scrapy提供的相关参数进行优化 setting.py文件选项说明 CONCURRENT_REQUESTS Downloader最大并发请求下载树立，默认32 CONCURRENT_ITE...

2018-11-29 02:40:00 77

转载爬虫：股票数据Scrapy爬虫实例

功能描述*技术路线：scrapy*目标：获取上交所和深交所所有的股票的名称和交易信息*输出：保存到文件中数据网站的确定，和之前博客相同：https://blog.csdn.net/qq_36949176/article/details/84487150实例编写：步骤步骤1：建立工程和Spider模板cmd命...

2018-11-29 02:33:00 127

转载 python爬虫学习笔记六：Scrapy爬虫的使用步骤

步骤1：创建一个工程和Spider模板步骤2：编写Spider步骤3：编写Item Pipeline步骤4：优化配置策略Scrapy爬虫的数据类型Request类class scrapy.http.Request()*Request对象表示一个HTTP请求*由Spider生成，由Downloader执行...

2018-11-29 01:12:00 150

转载爬虫：Scrapy爬取第一个网页实例解析

演示HTML地址演示HTML页面地址：https://python123.io/ws/demo.html文件名称：demo.html产生步骤步骤1：建立一个Scrapy爬虫工程生成工程目录代码（CMD）：scrapy startproject python123demo生成的工程目录python123de...

2018-11-29 00:50:00 420

转载爬虫：Scrapy常用命令

Scrapy常用命令命令说明格式 startproject 创建一个新工程 scrapy startproject<name>[dir] genspider ...

2018-11-26 20:37:00 110

转载 Scrapy爬虫框架结构以及和Requests库的比较

爬虫框架*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合*爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫Scrapy爬虫框架结构"5+2"结构Spiders（用户提供Url、以及解析内容）、Item pipelines（对提取的信息进行处理）模块需要用户编写（配置）其他模块：Engine、Scheduler...

2018-11-26 19:14:00 216

转载 Scrapy爬虫框架的安装

我们直接用pip安装Scrapy的话，会发生错误，提示构建twisted时安装失败，或者提示安装 Microsoftvisual c++14.0 的一个库。运行pip install Scrapy时候提示Twisted安装失败所以我们就得按着提示，哪个组件失败了就手动去安装哪个（这里是Twisted）相关组件。提示安装Micro...

2018-11-26 12:32:00 84

转载爬虫：股票数据定向爬虫

功能描述*目标：获取上交所和深交所所有股票的名称和交易信息*输出：保存到文件中*技术路线：requests-bs4-re候选数据网站的选择：新浪股票：https://finance.sina.com.cn/stock/百度股票：https://gupiao.baidu.com/stock/股票代码一览表：htt...

2018-11-25 15:24:00 240

转载爬虫：淘宝商品信息定向爬虫

功能描述目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。理解：淘宝的搜索接口翻页的处理技术路线：requests-re准备，安排！我们先搜索：裙子，查看浏览器返回的链接信息起始页：https://s.taobao.com/search?q=裙子&imgfile=&am...

2018-11-24 21:12:00 372

转载爬虫：Re库的贪婪匹配和最小匹配

贪婪匹配Re库默认采用贪婪匹配，即输出匹配最长的子串。>>> import re>>> match=re.search(r'PY.*N','PYANBNCNDN')>>> match.group(0)'PYANBNCNDN'最小匹配如何输出最短的子串呢？对！那...

2018-11-24 18:10:00 148

转载爬虫：Re库的match对象

Match对象的属性属性说明 .string 待匹配的文本 .re 匹配时使用的pattern对象（正则表达式） .pos 正则表达式搜索文本的开始位置（第几个位置，一般为0...

2018-11-24 17:58:00 87

转载 python爬虫学习笔记五：Re库的介绍和使用

Re库介绍Re库是Python的标准库，主要用于字符串匹配。调用方式：import re正则表达式的表示类型*raw string 类型（原生字符串类型）：re库采用raw string类型表示正则表达式，表示为：r'text'例如：r'[1-9]\d{5}'r'\d{3}-\d{8}|\d{4}-\d{7...

2018-11-24 17:02:00 434

转载爬虫：正则表达式

正则表达式regular expression regex RE正则表达式是用来简洁表达一组字符串的表达式‘PY’ ‘PYY’ 'PYYY' 'PYYYY' 可表示为PY+'PY'开头，后续存在不多于10个字符后续字符不能是‘P’或‘Y’ 可用正则表达式表示：PY[^PY]{0,10}正则表...

2018-11-21 15:12:00 91

转载爬虫：中国大学排名定向爬虫实例

实例最好大学排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述：输入大学排名URL链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests-bs4定向爬虫：仅对输入URL进行爬取，不扩展爬取bs4只能获取静态url信息...

2018-11-21 08:29:00 383

转载爬虫：基于bs4库的html内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)返回一个列表类型，存储查找的结果。name:对标签名称的检索字符串attrs:对标签属性值得检索字符串，可标注属性检索recursive:是对子孙全部检索，默认True调用tag的find_all()方法时...

2018-11-20 22:49:00 394

转载爬虫：信息提取的一般方法

信息提取的一般方法方法一：完整解析信息的标记形式，再提取关键信息。XML JSON YAML需要标记解析器例如：bs4库的标签树遍历优点：信息解析准确缺点：提取过程繁琐，速度慢方法二：无视标记形式，直接搜索关键信息。搜索对信息的文本查找函数即可优点：提取过程简洁，速度快缺点：提取结果准确性与...

2018-11-20 21:21:00 213

转载各种信息标记形式HTML\XML\JSON\YAML

HTML就不做介绍了，太熟悉了，就是用各种标签进行标记XML以标签为主，来构建信息表达信息用于Internet上的信息交互与传递和Html非常接近，是Html的扩展XML学习教程：http://www.runoob.com/xml/xml-tutorial.html<img src="china.jpg"...

2018-11-20 10:14:00 260

转载 python爬虫学习笔记四：BeautifulSoup库对HTML文本进行操作

只要你提供的信息是标签，就可以很好的解析怎么使用BeautifulSoup库？from bs4 import BeautifulSoupsoup=BeautifulSoup('<p>data<p>','html.parser'）例如：import requestsr=requests.get("...

2018-11-19 11:19:00 169

转载爬虫：ip地址查询代码

首先，我们找到一个能输入ip查询ip信息的网站，如ip138.com我们先随便输入一个ip,进行查询，得到的返回链接格式如：http://www.ip138.com/ips138.asp?ip=你要查询的ip地址接着我们就可以采用这个格式得到查看返回的网页的ip信息了代码如下import requestsurl="htt...

2018-11-18 13:59:00 296

转载 python爬虫学习笔记三：图片爬取

图片爬取的代码r.content 文件的二进制格式Python引入了with语句来自动帮我们调用close()方法：open(path, ‘-模式-‘,encoding=’UTF-8’)w：以写方式打开，a：以追加模式打开 (从 EOF 开始, 必要时创建新文件)r+：以读写模式打开w+：以读写模式打开 (参见 w...

2018-11-18 13:40:00 119

转载爬虫：模拟浏览器对网站内容进行爬取

对于一些保护比较好的网站，他能识别你是用requests库对其进行访问，所以有些网站会禁止你用python对其进行访问所以我们可以修改发送给网站的头部信息，伪造浏览器对网站进行访问查看我们发送给网站的头部信息：r.request.headerskv={'user-agent':'Mozilla/5.0'} // 修改访...

2018-11-17 22:06:00 269

转载 python爬虫学习笔记二：Requests库详解及HTTP协议

Requests库的安装：https://mp.csdn.net/postedit/83715574r=requests.get(url,params=None,**kwargs)这个r是Response对象url ：拟获取页面的url链接params：url中的额外参数，字典或字节流格式，可选**kwargs：12个...

2018-11-17 21:22:00 162

转载如何彻底的关闭Window自动更新？

win10固然好用，但是对于一些比较老的电脑，更新可不是什么好事，他会导致一系列问题，比如卡机、蓝屏、系统崩溃等等，开启Windows自动更新，每次开机的时候还得等待系统更新，如果Windows在我们着急用电脑的时候，突然更新，那是一年非常糟糕的事情。所以关闭Windows自动更新，有点必要。但是大家在关闭Windows自动更新的时...

2018-11-09 14:34:00 247

转载网页页面预加载动画的实现，加载后隐藏

我们做webapp的时候，可以做一个页面加载广告，在你网页加载的时候，先出现一段gif动图或者是海报。下面是实现页面加载动画的代码首先js代码的实现(function($){ $(window).load(function(){ $('#begin').fadeOut(); $('#l...

2018-11-09 13:38:00 551

转载 U盘重装系统教程与电脑开机密码清除

最近的WIN10更新，对于一些老旧的电脑，总会发生蓝屏的情况，万一电脑蓝屏了，开不了机，我们这时候就需要用到U盘来重装系统了。重装系统我们这里主要介绍2017年之后出的电脑通用重装系统步骤，早期的电脑的步骤由于硬件差异需要修改bios配置，对于比较老版本的电脑重装系统有问题可以在文章后面评论，博主看到后会及时给予帮助。要重装系...

2018-11-04 18:23:00 277

转载 python爬虫学习笔记一：爬虫学习概览与Requests库的安装与使用

python网络爬虫与信息提取学习目录：the website is the APIRequests：自动爬取HTML页面自动网络请求提交robots.txt：网络爬虫排除标准Beautiful Soup：解析HTML页面正则表达式详解，提取页面关键信息ReScrapy*：网络爬虫原理介绍、专业爬虫框架介绍...

2018-11-04 16:24:00 163

转载 Python环境变量的配置

python下载安装好了之后，在cmd窗口里面，我们输入python，提示找不到该命令，这时候我们需要配置环境变量我们找到我们安装python的目录，至于怎么找到python的安装目录？我们在win10里面可以搜索python，然后出现之后右键，打开文件位置，这时候打开的是快捷方式地址目录，我们再次右键打开文件地址，即可进入pytho...

2018-11-04 15:03:00 1240

bakk0615的博客