![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
守云开见月明
这个作者很懒,什么都没留下…
展开
-
百度词语爬虫
"""一:百度词语爬虫"""import urllib.requestfrom lxml import etreefrom urllib.parse import urlencode, unquoteimport requestsimport reimport jsonimport timedef digui(url,headers): try: requ...原创 2019-11-15 08:53:46 · 404 阅读 · 0 评论 -
CrawlSpider下的腾讯招聘网站内容爬取
1.首先是scrapy项目的建立:scrapy startproject TencentSpider 2.打开项目文件,在对应的spider文件夹内输入:scrapy genspider -t Crawl tencent tencent.com进行tencent.py爬虫文件的建立。3.爬虫程序的设置4.tencent.py程序的编写:源代码如下:# -*- ...原创 2018-12-03 10:31:49 · 308 阅读 · 0 评论 -
CrawlSpider爬虫的使用
1. rule规则:rule规则的参数allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。 deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。 allow_domains:会被提取的链接的domains。 deny_domains:一定不会被提取链接的domains。 restrict_xpaths:使用xpath表达式,和allow共同作...原创 2018-12-28 15:10:58 · 322 阅读 · 0 评论 -
python scrapy爬虫链接mongodb数据库
piplines.pysettings.py原创 2018-12-19 08:36:33 · 286 阅读 · 0 评论 -
scrapy设置中间件(uese-agent和代理)
settings.py#下载中间件DOWNLOADER_MIDDLEWARES = { 'douban.middlewares.RandomUserAgent': 100, 'douban.middlewares.RandomProxy': 200,}USER_AGENTS = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap...原创 2018-12-19 10:59:47 · 540 阅读 · 0 评论 -
urllib.request.urlopen()出现的程序超时假死问题
写了一个百度通用爬虫,需要对很多的url进行循环处理,获取url的html,程序逻辑没有问题,但是程序经常跑着跑着就停止不动,不报错,所以一句句加输出,最终发现原来是:pagetext = urllib.request.urlopen(request,data=None,timeout=15).read()停止都是在这句 查找资料得知,urlopen()有一个超时参数,当长时间获取不到响...原创 2019-04-14 20:18:40 · 8131 阅读 · 1 评论