爬虫
凡有言说
这个作者很懒,什么都没留下…
展开
-
爬虫入门(一)
1.get与post请求 最直观的区别就是GET把参数包含在URL中,POST通过request body传递参数。 但是两者都是HTTP协议中的两种发送请求的方法。HTTP的底层是TCP/IP。所以GET和POST的底层也是TCP/IP,即GET/POST都是TCP链接。 GET和POST能做的事情是一样一样的。如果要给GET加上request body,给POST带上url参数,技术上是完全行...原创 2019-04-07 11:07:52 · 129 阅读 · 0 评论 -
爬虫入门(三)
一、Selenium Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。并且支持多种操作系统:如Windows、Linux、IOS、Android等。利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。 Se...原创 2019-04-11 21:07:57 · 127 阅读 · 0 评论 -
爬虫入门(二)
1.Beautiful Soup Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,通过 BeautifulSoup,只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容,此外,它还有一定的 HTML 容错能力,对于一个格式不完整的HTML 文档,它也可以正确处理。 推荐:Beautiful Soup 官方文档 此外,嵩天老师慕课 Python网络爬...原创 2019-04-08 21:47:32 · 109 阅读 · 0 评论