爬虫
Lucas__liu
这个作者很懒,什么都没留下…
展开
-
python 爬虫学习三(Scrapy 实战,豆瓣爬取电影信息)
利用Scrapy爬取豆瓣电影信息主要列出Scrapy的三部分代码:spider.py文件:# _*_ coding=utf-8 _*_import scrapyfrom course.douban_items import DouBanItemfrom scrapy.http import Requestclass DouBanSpider(scrapy.Spider):原创 2017-05-24 16:02:11 · 1721 阅读 · 0 评论 -
python 爬虫学习二(Scrapy讲解)
scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学习的过程和在实际应用中会遇到的一些常见问题一、安装在安装scrapy之前有一些依赖需要安装,否则可能会安装失败,scrapy的选择器依赖于lxml,还有Twisted网络引擎,下面是ubuntu下安装的过程1. linux下安装原创 2017-05-24 15:44:59 · 2392 阅读 · 0 评论 -
python 爬虫学习一(基础)
一、准备工作之前不理解爬虫的时候,感觉很强大,当你理解后会发现确实很强大,哈哈,开个小玩笑。言归正传,当你深入的了解,会发现爬虫其实就是解析网页内容,利用xpath、selector、re等语法抽取所需要的数据内容。所以说学习爬虫,首先要学会处理HTML的文本页面(包括抽取中间的文本内容,下载图片,抽取url等),以下列出学习几个处理web网页的python模块及参考的博客:1.HtmlP原创 2017-05-24 15:27:40 · 719 阅读 · 0 评论 -
python 关于Max retries exceeded with url 的错误
在爬取boss直聘时出现这种错误,于是搜索了网上很多文章,总结如下: 1.http连接太多没有关闭导致的,解决方法:import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址2....原创 2018-05-08 15:06:46 · 153893 阅读 · 9 评论 -
爬虫基础--python
一、准备工作之前不理解爬虫的时候,感觉很强大,当你理解后会发现确实很强大,哈哈,开个小玩笑。言归正传,当你深入的了解,会发现爬虫其实就是解析网页内容,利用xpath、selector、re等语法抽取所需要的数据内容。所以说学习爬虫,首先要学会处理HTML的文本页面(包括抽取中间的文本内容,下载图片,抽取url等)。以下列出学习几个处理web网页的Python模块及参考的博客:1.Html...原创 2018-12-21 16:08:09 · 389 阅读 · 0 评论