1.写在前面
写本系列文章的目的有一下几点
1.给后来的编码同学留下借鉴的想法,或者给我身边的人留下一部分书面的材料。
2.正文
1.为何从爬虫开始呢?
代码究其根本,是为了服务人类社会。
而现在的社会呢, 互联网上的数据占据了生活的绝大多数方面,有种说法是,‘谁掌握了信息,谁就掌握了成功’。
…
而为什么我说一切编码从爬虫开始呢,爬虫可以获取互联网上的绝大部分的数据。而有了这些数据,就可以继续进一步的探索(展示信息给用户,以app、网站或者其他的方式;推送特定信息给特定用户,以完成某些信息的指定推送),进一步的展示或推送的格式和形式,我会在之后的文章中一一描述。
2.获取数据
- 确定展示的(使用的)数据内容,即目标数据
- 确定目标数据来源,寻找数据内容对应的网站或app等
- 通过各种抓包获取到数据对应的url格式
- 根据上一步获取的url格式,使用各种爬虫框架编写对应的数据抓取爬虫,获取到数据内容,存储到自己想保存的地方(数据库或者缓存或者文件)。
3.展示数据,或者使用数据
1.根据获取到的数据,加以处理,以适合我们的方式,在各种地方展示(使用)
2.展示数据的形式
2.1. 最简单最直接的使用互联网展示出来,用人话说就是,以想展示的形式,根据展示的具体形式编写对应的网站代码,构建指定的网站,发布到公网上,让所有人可以通过浏览器获取到我们以特定形式展现的数据,达到我们特有的目的。
2.2. app或者其他在终端的展示工具
2.3. 以各种接口,对外或对内的网站或终端展示工具进行展示
通过这些以上这些操作,可以让互联网信息以我们指定的特有的形式,展示给我们的用户
而各位读者,可以通过本人接下来的文章中的具体的操作,对html,php,python等编程语言熟悉,或者解决您的疑惑,如果有幸能解决您的问题,就是本人的最大目的了
使用的爬虫框架以scrapy为主,之后看需要加上其他的爬虫框架或浏览器模拟工具
接下来的文章为
本人在这暂时以网络小说为目标数据,进行爬虫的具体实现与解释