爬虫
都枯槐
这个作者很懒,什么都没留下…
展开
-
爬虫
概述 爬虫:一般被成为网络爬虫,也叫网页蜘蛛,网络机器人,搜索引擎就是网络爬虫的应用者 爬虫分类 通用爬虫 常见就是搜索引擎,无差别的收集数据、存储、提取关键字、构建索引库,给用户提供所有接口 爬取的一般流程: 1、初始一批URL,将这些URL放到带爬取队列 2、从队列取出这些URL,通过DNS解析IP,对IP对应的站点下载HTML页面,保存到本地服务器中,爬取完的URL放到已爬取队列 3、分析这...原创 2019-07-29 17:57:50 · 375 阅读 · 0 评论 -
HTML解析
通过上面的库,都可以拿到HTML内容 HTML的内容返回给浏览器,浏览器就会解析它,并对它渲染 HTML超文本表示语言,设计的初衷就是为了超过普通文本,让文本表现力更强 XML扩展标记语言,不是为了代替HTML,而是觉得HTML的设计中包含了太多的格式,承担了一部分数据之外的任务,所以才设计了XML用来描述数据 HTML和XML都有结构,使用标记形成树型的嵌套结构,DOM(Document Obj...原创 2019-07-29 23:06:53 · 362 阅读 · 0 评论