爬虫最关键的就是数据提取,我每次都要在网页解析和数据提取上花掉大量的时间,我之前写一个单线程的爬虫90%的时间都花在这里.在加上对网页制做也挺有兴趣的所以打算花点时间稍微深入的学习下.
如果想深入学习的可以去w3c上看教程,因为我只是打算简单的入门所以是在计蒜客和Codecademy上学的.
0.基本知识
网页:就是HTML文档.
URL:URL就是网址,网址的本质就是IP地址,IP地址的本质就是互联网中不同电脑的地址. 所以URL就是网页存放的地址.当你在浏览器中输入URL的时间,你就从别人的电脑上下载了一个HTML文档,然后浏览器经过转换变成了网页.
1.HTML和CSS的区别
HTML可以完成一个网页最基本的编写,相当于windos下的记事本.HTMl相当是一个美女,那么CSS就是化妆品了.
2.JavaScript
JS是一门编程语言和Python一样,区别就是JS广泛的用在网页中.
可以在Codecadmy上过过课程,如果你有兴致的话可以自己写一个文档把后缀改成html,然后拖进浏览器里.