有个叫微指数网站,就是微博上一些数据统计分析
在网页中点击显示网页源码,出现的就是该url对应的响应
robots协议中,allow:/artical 允许爬取 artical目录下内容
disallow:/product 不允许。。。。。
爬虫只会请求当前url的响应,这与浏览器(用JS)渲染后所得网页不同
一个url地址带上锚点与不带锚点,请求响应是一样的,
服务器从请求头中user-Agent中知道来访者电脑信息,我们要通过这个模仿手机或电脑访问
Accept:接受文件格式
Accept-Encoding:接受压缩方式
Accept-Language:接受语言,q=? 表示权重,q变大,接受度变大
cookie:保存用户信息(在浏览器本地,有数量上限)
cookies中重要的是name和value的值
post请求通常在传输图片,文件,用户登入时会用到