python学习
文章平均质量分 65
h0ryit
这个作者很懒,什么都没留下…
展开
-
python爬虫学习笔记1:requests库及robots协议
The Website is the APIrequests库requests库的7个主要方法requests.request构造一个请求 requests.request(method,url,[**kwarges])method:请求方式(get,post,put,patch,head,delete,option)url:url链接**kwarges:...原创 2018-05-05 15:26:17 · 440 阅读 · 0 评论 -
python爬虫学习笔记2:实例学习1
京东商品爬取页面实例import requestsurl = "https://item.jd.com/2967929.html"try: r =requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[:1000])except: pr...原创 2018-05-05 17:04:13 · 444 阅读 · 0 评论 -
python爬虫学习笔记3:bs4及BeautifulSoup库学习
Beuatiful Soupbs类对应一个HTML/xml文档的全部内容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','html.parser') soup2 = BeautifulSoup(open(1.html),"html.parser")BS解...原创 2018-05-05 20:07:18 · 635 阅读 · 0 评论 -
python爬虫学习笔记4:信息提取
信息组织与提取方法信息标记的三种形式xml由HTML扩展而来的通用信息标记形式实例<person> <firstName>Tian</firstName> <lastName>Song</lastName> <address> <streeAddr&原创 2018-05-05 21:17:28 · 213 阅读 · 0 评论 -
python爬虫学习笔记5:实例学习2
实例1:中国大学排名爬虫链接: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html功能描述: 输入:大学排名url链接 输出:大学排名信息的屏幕输出 技术路线:requests-bs4 定向爬虫:仅对输入url进行爬取,不扩展爬取验证可行性程序的结构设计 步骤1:从网络上获取大学排名网页内容 步骤2:提取网页内容...原创 2018-05-06 11:28:06 · 332 阅读 · 1 评论 -
python爬虫学习笔记6:正则表达式及re库
正则表达式语法常用操作符re库import rere库的主要功能函数re.search()re.search(pattern,string,flags=0)pattern - 正则表达式的字符串或原生字符串的表示string - 待匹配的字符串flag - 控制标记 re.match()re.match(patt...原创 2018-05-06 14:23:57 · 247 阅读 · 0 评论