爬虫学习
MJ_go
这个作者很懒,什么都没留下…
展开
-
爬虫学习之Scrapy构建
Scrapy构建方法一、Scrapy简介Scrapy是基于Python语言的一种快速抓取网页数据的工具,它提供了一种框架,方便我们在此框架上进行设计修改不同种类的爬虫来进行数据挖掘。二、Scrapy构造过程不像Windows操作系统上我们所熟悉的软件一样,Scrapy的构建过程并不是一蹴而就的。Scrapy的构造需要若干个小工具的支持,只有确保这几个小工具的安装到位,Scrapy才原创 2016-09-20 20:08:16 · 504 阅读 · 0 评论 -
Python IDLE 清屏
网上很多人不推荐使用IDLE,但对我这个菜菜来说,还是热衷于使用它。但IDLE存在一个问题就是不能清屏,代码多了显得特别混乱,下面我将总结一下网上的经验来解决这一问题。1、将此代码(http://bugs.python.org/file14303/ClearWindow.py)存为ClearWindow.py(注意大些),然后放到Python XXX\Lib\idlelib下面。2、在Py原创 2016-10-22 10:32:15 · 562 阅读 · 0 评论 -
python实现自动登录qq邮箱,写邮件并发送
某公司实习生测试第一轮题目原创 2017-09-15 18:17:24 · 4699 阅读 · 1 评论 -
python爬虫,爬取虎扑网新闻
以前写过的代码过一段时间就会忘记,需要按时复习 最近闲来无事,写了一个简单的爬虫程序,无奈知识遗忘太快,竟然花了我好长时间 女票喜欢库里,但无奈库里新闻太少,只好爬一波勇士队消息 【女票是不会喜欢从文件中看信息的。。。但我还是要写】# -*- coding:utf-8 -*- import requestsfrom bs4 import BeautifulSoupimport reim原创 2017-09-16 22:48:05 · 2895 阅读 · 1 评论 -
Scrapy 抓取疑惑问题,未解决!!!
版本python3.5 scrapy 1.4抓取链家数据的时候,抓到一定数据量会卡住不前,不知道问题原因,在setting设置了一些参数,但是并没有感觉到效果。我记得以前使用scrapy设置timeout的时候,是有效果的,不知道为啥这次不行,就是卡住不前,不会超时重试 老师说记录详细日志,从日志中找答案,我还没有找到记录详细日志的方法。DOWNLOAD_DELAY = 6 #设置时间间隔为1s原创 2017-12-11 11:07:48 · 2457 阅读 · 1 评论