爬虫
wendy587436
这个作者很懒,什么都没留下…
展开
-
初识爬虫
企业黄页:每个企业联系方式,主要业务等。存在意义:找到所需信息百度等:收集这些信息,以便用户搜索。而百度是自动24小时不间断爬取每个链接第相关信息,遇到一个链接再打开页面中的连接,拿到这个页面的简介,标题,链接等,叫外链。跳转到别的网页后再搜别的网页的关键字等。跳着跳转就永远停不下来,源源不断的查。蜘蛛网很多蚊子,把蜘蛛放到网上,最终把蚊子全吃了。目的是自动获取想要的信息,省去了人为的查找。...原创 2019-03-24 14:31:17 · 295 阅读 · 0 评论 -
爬虫举例
有些网站没有任何反爬机制,如汽车之家,任何人来了都能爬取以下爬取抽屉新热榜示例:import requestsresponse = requests.get('https://dig.chouti.com/')print(response.text)运行结果不能获取到网页内容,因为伪装成浏览器时不像浏览器,而发送请求本质是发送请求头和请求体。看看网络的请求头信息:如果能像...原创 2019-03-24 16:36:38 · 462 阅读 · 0 评论