![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 50
號先生
爱生活.爱运动.
展开
-
爬虫的运行原理
爬虫的运行原理 你自己如何获取网页上的数据? 1、打开一个网页 2、复制 标题 新闻内容 下载图片 爬虫爬取一个页面的流程 3、指定一个URL 4、发起一个网络请求 HTTP 5、得到一个HTML文档 6、解析HTML文档 爬虫爬取多个页面 1、指定很多个URL 数据结构 list 2、从list中依次拿取url 发起一个网络请求 HTTP 得到一个HTML文档 解析HTML文档 顺便解析出其他URL 将解析的URL存放到等待爬取的URL中 爬虫的原理图 步骤说明: 1、将一个种子URL存放到队里中 2、.原创 2022-02-07 22:28:24 · 1364 阅读 · 0 评论 -
【 爬虫解决了什么问题】
爬虫解决了什么问题? 爬虫解决获取数据的问题。 互联网上有哪些数据值得爬取? 公司内部数据 业务数据,公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据; 财务数据,其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据; 用户数据,无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、身份证号码等数据,这些数据其实非常有价值,此外还要加上用户使用公司产品留下的行为数据。 历史数据,公司沉淀下来的其他各种数据。 外部数据 社交网站数据,包括微信.原创 2022-02-07 21:33:41 · 469 阅读 · 0 评论 -
爬虫基础
day01 课堂笔记 爬虫是什么 爬虫的商业价值(爬虫对那些数据感兴趣) 爬取的简单分类 爬取的运行原理(*) 模拟浏览器发送HTTP请求 http协议(Header,相应状态码) JDK原生的API进行网络请求(get和post) package cn.itcast.reptile; import java.io.BufferedReader; import java.io.InputStr原创 2017-12-18 20:31:01 · 228 阅读 · 0 评论