爬虫
Young-zhou
这个作者很懒,什么都没留下…
展开
-
Python爬虫之scrapy--01爬取伯乐网文章
github:https://github.com/Link-Secret/Python-crawler准备工作虚拟环境 mkvirtualenv article_spider安装scrapy pip install scrapy(可以选择豆瓣源,豆瓣源速度比较快) 如果安装Twisted出错,下载Twisted对应的whl文件安装即可创建...原创 2018-04-29 09:30:11 · 249 阅读 · 0 评论 -
爬虫从头学之爬虫基本原理
什么是爬虫:请求网站并提取数据的自动化程序爬虫基本流程:发起请求:通过Http库向目标站点发起请求,即发送一个Request,请求包括额外的headers等信息,等待服务器响应。获取响应内容如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。解析内容得到的内容...原创 2018-06-09 09:58:03 · 381 阅读 · 0 评论 -
爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容。根据这四个内容我们的思路就很清晰。以下为具体步骤使用requests库爬出单页内容根据返回值使用正则表达式分析保存至文件对目标网站进行循环以及多线程爬取项目实战部分使用requests库爬出单页内容爬取url:http://maoyan.com...原创 2018-06-09 14:52:24 · 801 阅读 · 0 评论