为什么要爬虫:数据时代通过爬虫可以进行数据的抓取
网页的三大特征:每个网页都有自己的url,网页都使用html,http
爬虫,反爬虫,反反爬虫
DNS:是吧域名解析成Ip 的一种技术,并不是万物皆可爬,都得遵守robots协议
get请求参数会在地址栏中出现,
post请求会隐藏在form表单里
cookie:存储在本地浏览器中
爬虫思路有多种爬虫方式如urllib2,requests,相对来说requests简单一点:
先输入一个需要爬虫的地址
输入爬虫的内容以字典方式保存
进行解析:urllib2.urlencod("2")
然后请求:urllib2.Resquest().read
requests.get(url,headers=headers)
r=url lib,urllibencod("字典")
解码
反码:urllib2.unquote(r)
在编译器中打出查询的方法:
s= urllib.urlencod("输入的解析内容")
full=url+"?"+s
重新输入 url地址
读取:
url lib2.Request(要读取的地址,读取的文字类型)
url li b2.urlopen(request).read()