“爬虫”之旅
文章平均质量分 69
敲代码的乔帮主
走在梦想的大道上,跌跌撞撞,时而悲伤,时而难过失落,是什么又让我扬起头继续向前呢?是心中的那一朵彼岸之花,牵使着你我之间的约定,成为我心中那一股永不可灭的骨气,终究是信仰。
展开
-
爬虫之旅(一)——引言
写在前面本系列采用Python3.5版本,因为2.x版本已经逐渐退出历史舞台 浏览器(强烈建议谷歌浏览器) python编辑器使用pycham学习爬虫的必备知识HTML+Python+TCP/IP协议,HTTP协议Html:参考W3School的教程python:廖雪峰的Python教程TCP/IP协议,HTTP协议:廖雪峰Python教程里也有简单介绍,可以参考:TCP...原创 2018-08-25 21:16:11 · 1074 阅读 · 0 评论 -
爬虫之旅(二)——request安排一下
写在前面Requests库:功能很强大的网络请求库,可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西 安装:pip install requests 推荐仔细阅读英文官方文档,和中文官方文档开始表演目标:爬虫的第一步,获取到了网页的HTML内容1.创建一个python文件,输入第一行代码来导入requests库:import r...原创 2018-08-25 21:33:08 · 829 阅读 · 0 评论 -
爬虫之旅(三)——BeautifulSoup模块安排一下
1.写在前面 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据。这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据。 安装BeautifulSoup模块:pip install beautifulsoup4 安装lxml,这是一个解析器,BeautifulSoup可以使用它来解析HTML,然后提取内容。(如果不...原创 2018-08-25 21:49:18 · 931 阅读 · 0 评论