目录:
一、什么是爬虫?
二、爬虫的基本流程
三、什么是Request和Response?
四、Request中包含什么?
五、Response中包含什么?
六、能抓怎样的数据
七、解析方式
八、为啥我抓到的和浏览器看到的不一样?
九、怎么解决JavaScript渲染的问题?
十、怎样保存数据?
一、什么是爬虫?
简单来说就是:请求网站并提取数据的自动化程序。(个人理解就是我们点击网页浏览的过程)
操作:右键--->审查元素(如若想提取链接信息的话,就要从这些htm代码提取文字和链接信息,用解析库解析以上的信息,存成结构化的数据)
二、爬虫的基本流程
1.robots.txt
通过在所要爬取的母网站(如http://www.weibo.com/)后面增加robots.txt,即可查出所有不可爬取的网站
2.发起请求
通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息,等待服务器响应
3.获取响应内容;
如果服务器能正常响应所要获取的页面内容,会得到一个Response,Response的内容便是,类型可能是HTML,JSON字符串,二进制数据等类型;
4.解析内容
得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析&