自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

翻译 10Scrapy实例

演示HTML地址:http://python123.io/ws/demo.html文件名称demo.html步骤1.建立一个Scrapy爬虫工程(路径是D:\pycodes)>scrapy startproject python123demo(工程名) 会在D盘中生成外层目录python123demo/, 包含 scrapy.cfg(部署scrapy爬虫的配置文件);...

2019-02-18 17:14:55 129

翻译 02hadoop集群

1.hadoop集群有主集群和备用集群主集群有一个namenode(活跃的),一个namenode(非活跃的),两者通过 zookeeper协调管理者,还有3个datanode。备用集群有namenode和3个datanode。主集群会将信息一般通过外网同步到备用集群,会有一定的延迟。比如主集群在北京,备用集群在四川。2.安全模式集群启动的时候检查block块是否有丢失3.将文件...

2019-02-15 17:41:58 181

翻译 9.Scrapy爬虫常见命令

1.命令行格式scrapy [options] [args]2.常见命令startproject 创建一个新工程 scrapy startproject [dir]genspider 创建一个爬虫 scrapy genspider [options] settings 获得爬虫配置信息 scrapy settings [options]crawl 运行一个爬虫 scrapy cr...

2019-02-14 10:27:44 221

翻译 8Scrapy

定义不是一个简单的函数功能库,而是一个功能强大并快速的网络爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品,能够根据用户的需求,快速帮助用户实现专业网络爬虫,其中很多半成品的功能用户可以直接使用,并且这种框架约束了一个使用的模板,用户就可以知道对于一个网络爬虫来说怎么操作这个模板。非常优秀的python第三方库,也是基于python实现网络爬虫的重要技术路线。...

2019-02-14 10:15:05 144

翻译 6爬虫淘宝商品信息定向爬取实例

1.目标:获取搜索页面信息,提取其中的商品名称和价格。2.重点:搜索接口,翻页的处理3.技术路线:requests-re4.操作①确定淘宝的定向爬虫可行性http://www.taobao.com/robots.txt②提交搜索请求,循环获取页面③每个页面,提取商品名称和价格信息④将信息输出到屏幕上。#coding=UTF-8 在代码中写中文import requestsi...

2019-01-10 16:22:36 556

翻译 5re库的使用

1.当正则表达式包含<转义符>时使用raw string (原生字符串类型:不包含转义符) r’text’eg:国内电话号码r’\d{3}-\d{8}|\d{4}-\d{7}’2.re.search:搜索匹配正则表达式的第一个位置,返回match对象eg:import re 中国邮政编码match=re.search(r’[1-9]\d{5}’,‘BI...

2019-01-10 13:00:07 320

翻译 4爬虫实例----大学排名

输入:大学排名网站的url链接输出:大学排名信息的屏幕输出(排名,学校名称,总分)技术:requests-bs4此为定向爬虫,仅对给定的url进行爬取,不扩展爬取步骤1:获取网页内容 getHTMLText()步骤2:提取所需内容并放入合适的数据结构中fillUnivList()步骤3:展示结果 printUnivList()import requestsfrom bs4 imp...

2019-01-10 12:59:31 255

翻译 3信息标记

1.信息标记的三种方式——(HTML,xml),json,YAMLjson “key”:“value” “key”:[“value1”,“value2”]''key1":{“key2”:“value2”}YAML:无类型的键值对 name: 中北大学用缩进来表达包含关系 name:newname:中北大学oldname:华北理工学院用-表达并列关系 ...

2019-01-10 12:58:40 206

翻译 爬虫的requests的使用

1.requests对象r=requests.get(url):有2个关键对象,构建一个向服务器请求资源的request对象,返回一个包含服务器资源的requests对象2.response对象的属性r.status_code:http请求的返回状态,200成功r.text:http响应内容的字符串形式r.encoding:从http header中猜测响应内容的编码方式r.appar...

2019-01-10 12:56:54 179

翻译 爬虫2解析HTML页面-第三方库Beautiful Soup

1.安装BeautifulSoup–pip install beautifulSoup4Beautiful Soup库也叫beautifulsoup4或bs42.解析demo页面import requestsr=requests.get(“http://python123.io/ws/demo.html”)demo=r.textfrom bs4 import BeautifulSoup...

2019-01-07 09:41:14 1128 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除