爬虫从原理上来,简单来讲就是发送http/https请求+解析html页面,获取页面上的目标数据。所以任何一个编程语言理论上都可以写爬虫,不过写起来可用的库或者难易程度有所不同罢了!用python可以用别人封装好的爬虫框架如scrapy。不用框架,也可以用requests + beautifusoup,其中requests是用来建立http请求的,beautifusoup是用来解析页面的;当然也可以用其他各种库来完成类似的操作;用java也一样,既可以直接用框架如WebMagic,也可以自己发送http请求+html页面解析,譬如发送http请求可以用apache的httpclient,也可以用java自带的HttpURLConnection,html解析可以用jsoup等;c/c++也一样,本质上还是发请求+html解析,但是到这里,可用的开源库相比于python/java来说,就会少很多,如果不用开源库、自己发请求 + 自己来解析html,那将是一个庞大浩瀚的工程
爬虫为什么要用python
最新推荐文章于 2023-03-18 09:15:00 发布