ajx10132-CSDN博客

翻译 10Scrapy实例

演示HTML地址：http://python123.io/ws/demo.html文件名称demo.html步骤1.建立一个Scrapy爬虫工程（路径是D:\pycodes）&gt;scrapy startproject python123demo(工程名) 会在D盘中生成外层目录python123demo/，包含 scrapy.cfg(部署scrapy爬虫的配置文件)；...

2019-02-18 17:14:55 154

翻译 02hadoop集群

1.hadoop集群有主集群和备用集群主集群有一个namenode（活跃的），一个namenode(非活跃的)，两者通过 zookeeper协调管理者，还有3个datanode。备用集群有namenode和3个datanode。主集群会将信息一般通过外网同步到备用集群，会有一定的延迟。比如主集群在北京，备用集群在四川。2.安全模式集群启动的时候检查block块是否有丢失3.将文件...

2019-02-15 17:41:58 192

翻译 9.Scrapy爬虫常见命令

1.命令行格式scrapy [options] [args]2.常见命令startproject 创建一个新工程 scrapy startproject [dir]genspider 创建一个爬虫 scrapy genspider [options] settings 获得爬虫配置信息 scrapy settings [options]crawl 运行一个爬虫 scrapy cr...

2019-02-14 10:27:44 227

定义不是一个简单的函数功能库，而是一个功能强大并快速的网络爬虫框架，爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品，能够根据用户的需求，快速帮助用户实现专业网络爬虫，其中很多半成品的功能用户可以直接使用，并且这种框架约束了一个使用的模板，用户就可以知道对于一个网络爬虫来说怎么操作这个模板。非常优秀的python第三方库，也是基于python实现网络爬虫的重要技术路线。...

2019-02-14 10:15:05 150

翻译 6爬虫淘宝商品信息定向爬取实例

1.目标：获取搜索页面信息，提取其中的商品名称和价格。2.重点：搜索接口，翻页的处理3.技术路线：requests-re4.操作①确定淘宝的定向爬虫可行性http://www.taobao.com/robots.txt②提交搜索请求，循环获取页面③每个页面，提取商品名称和价格信息④将信息输出到屏幕上。#coding=UTF-8 在代码中写中文import requestsi...

2019-01-10 16:22:36 561

翻译 5re库的使用

1.当正则表达式包含&amp;lt;转义符&amp;gt;时使用raw string (原生字符串类型：不包含转义符) r’text’eg:国内电话号码r’\d{3}-\d{8}|\d{4}-\d{7}’2.re.search:搜索匹配正则表达式的第一个位置，返回match对象eg:import re 中国邮政编码match=re.search(r’[1-9]\d{5}’,‘BI...

2019-01-10 13:00:07 331

翻译 4爬虫实例----大学排名

输入：大学排名网站的url链接输出：大学排名信息的屏幕输出（排名，学校名称，总分）技术：requests-bs4此为定向爬虫，仅对给定的url进行爬取，不扩展爬取步骤1：获取网页内容 getHTMLText()步骤2：提取所需内容并放入合适的数据结构中fillUnivList()步骤3：展示结果 printUnivList()import requestsfrom bs4 imp...

2019-01-10 12:59:31 258

翻译 3信息标记

1.信息标记的三种方式——（HTML，xml），json,YAMLjson “key”:“value” “key”:[“value1”,“value2”]''key1&quot;:{“key2”:“value2”}YAML:无类型的键值对 name: 中北大学用缩进来表达包含关系 name:newname:中北大学oldname:华北理工学院用-表达并列关系 ...

2019-01-10 12:58:40 212

翻译爬虫的requests的使用

1.requests对象r=requests.get(url):有2个关键对象，构建一个向服务器请求资源的request对象，返回一个包含服务器资源的requests对象2.response对象的属性r.status_code:http请求的返回状态，200成功r.text:http响应内容的字符串形式r.encoding:从http header中猜测响应内容的编码方式r.appar...

2019-01-10 12:56:54 188

翻译爬虫2解析HTML页面-第三方库Beautiful Soup

1.安装BeautifulSoup–pip install beautifulSoup4Beautiful Soup库也叫beautifulsoup4或bs42.解析demo页面import requestsr=requests.get(“http://python123.io/ws/demo.html”)demo=r.textfrom bs4 import BeautifulSoup...

2019-01-07 09:41:14 1133 1

ajx10132的博客